- 博客(71)
- 资源 (1)
- 收藏
- 关注
原创 从 0 到 1:6 台 DGX Spark 跑满血 MiniMax-M2.5给OpenClaw使用
本文探讨了在多机部署230B大模型MiniMax-M2.5的工程实践,重点解决了三个核心挑战:并行切分、流量路由和内存控制。通过采用三组TP=2的Worker集群结合SGLang Model Gateway的缓存感知路由,有效避免了传统轮询代理导致的缓存穿透问题。架构类比餐厅运营,强调复用历史对话的"锅底"以提升长对话性能。实验证明该方案能显著降低首字延迟,在6台NVIDIA DGX Spark上实现了稳定运行。同时文章警示了统一内存配置的潜在风险,建议将显存占比控制在0.75-0.8之
2026-03-20 12:57:42
330
原创 OpenClaw + OpenViking全链路本地化记忆管理
随着大型语言模型 (LLM) 的普及,隐私保护和长期记忆能力成为个人 AI 助理(Personal Agent)发展的关键瓶颈。如果将所有对话历史和私有文档都通过 API 上传给云端模型,不仅存在隐私风险,还会带来高昂的 API 调用成本。本文将分享一套零隐私泄漏、全链路本地化推理与存储的 AI Agent 架构最佳实践。
2026-03-18 16:24:04
558
原创 Openclaw无限免费使用本地MiniMax-M2.5-NVFP4 模型
Openclaw配置参考:结果展示:DGX Spark 搭载的 GB10 GPU 计算能力为 SM121 (compute capability 12.1),这与数据中心级 Blackwell GPU (SM100) 有本质区别:这意味着大量 ML 库的预编译二进制文件不能直接在 DGX Spark 上运行,必须从源码编译。NVIDIA 官方提供了 Docker 镜像,但:Tensor Parallelism (TP=2): 模型权重按层切分到两张 GPU多节点 TP: 使用 模式,通过 NC
2026-03-17 15:46:21
470
原创 NVIDIA DGX Spark (Blackwell GB10) 双机 196B Step 3.5 Flash 大模型部署完整实录
本文详细介绍了在NVIDIA DGX Spark集群上部署196B参数大模型的架构设计与实现方案。采用两台主机通过高速网卡直连组成Ray集群,使用流水线并行(PP=2)拆分模型。重点解决了GB10统一内存架构的特殊性、ConnectX-7网络带宽的实际限制,以及软件栈适配中的关键技术难题。特别针对vLLM在跨节点Ray PP场景下的多个严重Bug进行了源码级修复,包括Placement Group策略调整、GPU分配逻辑优化等核心问题。通过精心配置编译环境、修改Flash-Attention支持sm_121
2026-03-12 11:37:34
618
原创 【AI 集群实战】多节点 DGX Spark 集群共享大模型
如果 8 台 DGX Spark 都去本地拉取一遍模型,不仅浪费几百 GB 的 NVMe 空间,后续更新模型(如增量微调的 LoRA 权重)也需要手动 Rsync 繁琐同步。为了解决这个问题,我们选取一台搭载大容量 NVMe 硬盘的 DGX Spark 作为**“主镜像仓库”**,通过配置优化的。:在 DGX Spark 上运行一次后,只要不清理系统缓存,第二次启动代码将直接从内存读取,实现几秒钟内的“瞬间加载”!(注:千兆网环境下,速度稳定在 118 MB/s 左右为绝佳状态。(只读)权限,防止误操作。
2026-03-09 20:17:32
497
原创 企业级 GPU 集群镜像管理方案:基于 Nexus 3 的读写分离、代理加速与自动化瘦身
摘要:本文介绍了如何利用Nexus Repository Manager 3构建AI开发环境中的Docker镜像管理方案。针对大规模AI开发中面临的外网带宽压力、重复拉取浪费和磁盘空间危机等问题,提出部署Nexus作为私有镜像仓库的解决方案。详细说明了环境准备、部署步骤、集群节点配置方法,并重点阐述了Nexus镜像清理与空间释放的三步策略(创建清理策略、配置调度任务、压缩存储),实现镜像管理的"存储+加速+自动瘦身"一体化。该方案能显著提升内网镜像分发效率,解决大模型镜像带来的存储压力。
2026-03-05 14:56:42
448
原创 【实测】NVIDIA DGX Spark 本地部署 Qwen3.5-35B-A3B-FP8 完整教程 + 性能分析
摘要:本文介绍在NVIDIA DGX Spark(GB10芯片)上部署Qwen3.5-35B-A3B-FP8量化模型的最佳实践。该MoE架构模型(35B参数/3B激活)通过FP8量化将模型大小从65GB降至37.5GB,精度损失<0.5%,同时避免了NVFP4的兼容性问题。部署采用vLLM 0.16.1rc1容器化方案,支持262K上下文长度和自动工具调用功能。关键配置包括:FlashAttention加速、88%显存利用率、禁用KV缓存FP8(避免启动冲突)。实测生成速度达31 tokens/s(B
2026-03-02 19:34:20
4836
2
原创 OpenClaw 连接本地 vLLM 报 “Connection error“ 问题排查与解决
摘要:OpenClaw 2026.2.x迁移vLLM服务后出现Connection error问题,排查发现models.json优先级高于openclaw.json导致请求仍指向旧服务器。通过strace确认请求被本地拦截,系因连续失败触发cooldown保护机制。解决方案为更新~/.openclaw/agents/main/agent/models.json中的IP并重启gateway。建议使用openclaw config set命令修改配置以避免遗漏,迁移时需检查所有相关配置文件(包括models.
2026-02-28 17:18:45
7569
原创 NVIDIA DGX Spark (ARM64/Blackwell) Kubernetes 集群 + GPU Operator 完整部署指南
摘要:本文详细介绍了在NVIDIA DGX Spark服务器(ARM64架构)上部署Kubernetes集群的全过程,重点解决四大技术难题:1)ARM64架构适配问题,2)Grace Blackwell GB10芯片的CDI配置,3)DGX OS驱动兼容性问题,4)国内网络环境下的镜像拉取问题。通过优化containerd配置、使用Helm国内源部署Cilium网络插件,以及关键性地禁用GPU Operator驱动安装(直接使用预装驱动)并启用CDI支持,最终成功构建了完整的GPU加速K8s环境。文档特别提
2026-02-05 15:49:49
952
1
原创 NVIDIA Grace (ARM64) 上使用 vLLM 部署 BGE-M3 Embedding 模型
本文详细记录了在 NVIDIA Grace (ARM64) 架构服务器上,不使用 Docker 容器,而是直接通过 Python 环境源码运行 vLLM 来部署 BGE-M3 Embedding 服务的全过程。该方案解决了 ARM 架构下 HuggingFace TEI (Text Embeddings Inference) 官方镜像不兼容的问题,并实现了极低的显存占用。
2026-01-25 14:30:00
673
原创 ComfyUI 部署 Wan 2.2 Animate 14B (MoE) 满血版:NVIDIA DGX Spark 128G VRAM
摘要:本文展示了在NVIDIA DGX Spark环境下使用Wan 2.2 Animate 14B模型的工作流程,包含视频预处理、SAM2模型加载、图像缩放控制等关键节点。完整工作流文件支持视频输入处理和结果预览功能。
2026-01-11 14:45:00
1465
原创 在 NVIDIA DGX Spark部署 Stable Diffusion 3.5 并使用ComfyUI
随着 NVIDIA Blackwell 架构的问世,将桌面级 AI 算力推向了新的巅峰。这台怪兽级设备搭载了GB200/GB10级别的 GPU 和,并运行在最新的CUDA 13环境下。然而,“最强硬件"往往伴随着"最难环境”。由于 Grace CPU 采用架构,且 CUDA 13 过于前沿,传统的 PyTorch 安装方法极易失败。本文将手把手教你如何在这台超级计算机上部署,并利用其128GB 海量显存开启高性能模式,实现秒级、零延迟的创作体验。在DGX Spark模型加载: 首次启动后,模型将。
2026-01-05 11:42:01
1901
1
原创 实战:在 NVIDIA Blackwell GB10 上部署 GPT-OSS 120B (MXFP4) 全流程避坑指南
摘要: 本文详细介绍了在NVIDIA Blackwell架构(GB10/B200)上部署GPT-OSS 120B大模型的实战经验。针对环境构建中的NumPy版本ABI冲突、Python多进程CUDA死锁及OpenAI Harmony词表下载失败等核心问题,提供了具体解决方案,包括强制降级NumPy版本、手动构建词表缓存及调整多进程启动模式。最终通过源码编译vLLM并启用MXFP4量化与FP8 KV Cache,成功在单卡128GB显存上实现高效推理,附完整部署脚本与测试案例。
2025-12-29 23:30:00
1361
1
原创 Agent Skills:AI 智能体的“职业技能证书“系统
Skills Marketplace 生态预测技能交易平台:类似 NPM 或 VS Code 插件市场免费开源技能(社区贡献)付费专业技能(企业级解决方案)认证技能(经过 AAIF 验证)技能组合(Skill Bundles)“财务分析套件”:包含 Excel、PDF、会计规则等多个技能“设计师工具包”:Figma、色彩理论、排版规范动态技能更新技能版本管理(如 v1.0.0 → v1.1.0)自动订阅更新(类似软件自动更新)
2025-12-29 20:52:55
2807
原创 SuperClaude Framework 详细教程:把 Claude Code 变成结构化开发平台
Agent职责使用场景Researcher深度调研、信息收集新技术调研、竞品分析、技术选型Architect系统设计、架构规划模块拆分、数据流设计、技术架构代码实现、功能开发功能开发、Bug 修复、代码重构安全审查、漏洞检测代码审查、安全审计、风险评估测试设计、质量保证测试用例设计、测试策略制定Documenter文档编写、知识整理API 文档、使用手册、技术文档Optimizer性能优化、效率提升性能分析、瓶颈识别、优化建议DevOps部署、CI/CD。
2025-12-24 17:47:12
981
原创 Claude Code 最佳实践和常用命令完整指南
自定义命令允许你定义经常使用的提示为 Markdown 文件。Model Context Protocol (MCP) 是一个开源标准,允许 Claude Code 连接到外部工具和数据源。MCP 服务器可以访问数百个工具。Hooks 是在 Claude Code 生命周期中特定点执行的自定义 shell 命令,提供对 Claude Code 行为的确定性控制。
2025-12-21 09:45:00
3223
原创 【零基础入门】Open-AutoGLM 完全指南:Mac 本地部署 AI 手机助理(原理+部署+优化)附上修改后代码
摘要:本教程详细讲解如何在 Mac(Apple Silicon)上本地部署智谱 AutoGLM-Phone-9B 多模态大模型,实现完全离线、隐私安全的手机 AI 助理。内容涵盖环境配置、模型部署、实战操作和性能优化,适合开发者、隐私敏感用户和 AI 爱好者。通过 ADB 工具和 MLX 框架,用户可在 Mac 上高效运行 9B 参数模型,实现自动化手机操作,如点外卖、发消息等,所有数据处理均在本地完成,无需依赖云端服务。
2025-12-10 15:01:21
6314
11
原创 NVIDIA Jetson Orin Nano 刷机避坑指南:NVMe启动 + SDK Manager + 解决卡启动/红字报错
最近在配置 NVIDIA Jetson Orin Nano 开发板,目标是将 JetPack 6.x 系统直接刷入NVMe SSD(放弃速度慢且容量小的 SD 卡)。整个过程踩了不少坑,包括 SDK Manager 权限报错、显示器卡死在启动界面、Oem-config配置失败等。本文总结了一套“Pre-Config(预配置)”的最佳实践方案,能够一次性跑通,避免各种图形界面引导失败的问题。
2025-12-01 22:45:00
1947
原创 NVIDIA Jetson Orin Nano 大模型量化与部署指南 (Fara-7B)
该文档基于我们在 NVIDIA Jetson Orin Nano (8GB) 上的实战经验,详细记录了如何将一个庞大的 Fara-7B 模型(原始约 15GB)通过量化压缩到 4.5GB,以便在边缘设备上流畅运行。
2025-12-01 22:00:00
1995
原创 Jetson Orin/Nano 玩转 CUDA:从环境配置到跑通第一个 Kernel
解决环境Jetson Orin / Nano变量问题,避开 CMake 编译大坑,直接用 nvcc 跑通官方 Sample,并手写你的第一个 CUDA Hello World 程序。
2025-11-24 20:27:20
942
原创 纯前端中文情感分析实战:从模型到上线全流程
这是一篇面向入门者的实践指南,带你快速上手一个基于 TensorFlow.js + BERT 的中文情感分析 Web App。你将了解它的整体架构、数据流、关键源码位置,并学会如何在本地构建与上线。
2025-11-18 15:20:06
787
原创 Vibe 编程与 Happy Coding:道法术器的实践指南
《AI时代的快乐编程:Vibe编程实践指南》 本文提出"Vibe编程"新理念,通过AI辅助实现快乐编程体验。核心观点包括: 编程本质是数据+脚本,AI可自动生成高质量代码 传统编程痛点(重复劳动、调试痛苦)可通过AI工具解决 倡导"All in AI"全流程覆盖,从需求分析到部署上线 推荐Python+React技术栈,适合AI时代开发需求 实践方法: 用自然语言描述需求替代手写代码 利用Cursor等AI编程工具辅助开发 采用Vercel等自动化部署平台 贯穿敏捷迭
2025-11-14 16:16:54
826
原创 MediaPipe LLM Inference:在WEB浏览器中“裸跑”大语言模型
介绍如何基于Google MediaPipe框架,利用WebGPU在浏览器端直接运行Gemma 2/Gemma 3等轻量级大模型,无需后端服务器和API成本。通过MediaPipe的LLM Inference API结合WebGPU和LiteRT模型格式,开发者可在前端实现隐私安全、低延迟的AI推理功能。文章详细解析了核心原理(WebGPU算力调度、WASM运行时、流式响应机制)、硬件要求(2GB+显存,Chrome 121+)和5分钟快速实践指南(含代码结构),帮助开发者构建本地AI应用,适用于
2025-11-12 18:37:26
1050
原创 LLM + TFLite 搭建离线中文语音指令 NLU并部署到 Android 设备端
介绍如何使用 LLM 生成训练数据、训练轻量级 NLU(自然语言理解)模型,并将其部署到 Android 设备端。通过端到端的训练流程,实现离线、高准确率的语音指令理解,替代传统规则解析方案。
2025-11-11 15:53:46
1290
6
原创 Android 端离线语音控制设备管理系统:完整技术方案与实践
本文提出了一种在Android设备端实现离线语音控制终端管理系统的技术方案。该方案采用Vosk轻量级语音识别引擎(49MB)和基于规则的解析方法,实现了从语音输入到设备控制的完整本地化处理流程。系统架构分为三阶段:语音识别(Vosk STT)、自然语言理解(规则解析器)和设备控制执行(TMS广播)。相比云端方案,该设计具有隐私保护、实时响应和低资源占用等优势,特别适合移动设备管理场景。技术选型重点评估了多种开源方案,最终确定Vosk和规则解析的组合最优,并提供了实现细节和性能优化建议。
2025-11-07 18:03:27
1329
原创 ESA + Vercel 双域回源加速方案最佳实践
阿里云 ESA 加速 Vercel 应用方案通过边缘节点缓存静态资源,显著提升中国大陆访问速度。该方案采用双域名架构:example-edge.domain.com 作为加速入口指向 ESA,example-origin.domain.com 作为源站指向 Vercel。ESA 提供智能缓存、全链路 HTTPS 和安全防护,同时支持 HTTP/2/3 和 Brotli 压缩优化性能。配置时需注意 DNS 解析、Vercel 域名绑定和 ESA 缓存策略设置,尤其要放行 ACME 证书验证路径。
2025-10-10 11:42:05
867
原创 Kubernetes 僵尸容器清理完整教程
僵尸容器的清理需要在每个受影响的节点识别并杀死旧容器的进程停止 containerd清理容器元数据重启 containerd诊断:识别僵尸容器和异常进程清理:杀死进程 → 停止 containerd → 清理元数据 → 重启 containerd验证:确认容器和进程已清理,Pod 恢复正常预防:调整配置,避免再次发生。
2025-10-10 11:19:03
960
原创 MCP工具在Mac Cursor中的完整配置指南
Cursor MCP工具集为开发者提供了8种强大的IDE集成工具,包括思维分析、UI组件、文档查询、部署管理等。这些工具无缝集成在Cursor IDE中,通过标准化的MCP协议扩展AI助手能力。主要工具包括:序列化思考工具帮助分析复杂问题、Shadcn UI工具快速获取组件代码、Context7工具实时查询文档、Vercel部署工具等。Mac用户需配置Node.js环境,并设置各工具对应的JSON配置文件。这些工具能显著提升开发效率,支持从开发到测试的全流程优化,实现真正的智能辅助编程。
2025-09-04 00:15:00
2583
原创 Vercel v0开发工具实用教程
v0开发平台摘要 v0是一个AI驱动的快速开发平台,可将设计描述快速转化为可部署产品。核心功能包括: 🚀 分钟级原型开发 🎨 实时预览与迭代优化 📱 自动响应式设计 ⚡ 一键Vercel部署 典型案例展示了如何分四步复刻ModelScope网站: 基础需求描述 样式数据细化 截图辅助精准还原 部署测试 平台支持: 分层提示词优化 组件化开发管理 团队协作工作流 性能优化方案 适合快速构建各类Web应用,从电商网站到管理后台,大幅提升开发效率。
2025-08-24 17:15:00
2830
原创 Cloudflare核心服务分析202508
Cloudflare边缘计算平台2025年技术更新摘要:Workers无服务器计算实现近乎零冷启动(0-几ms),支持JS/TS/Rust/Python等多语言,全球320+节点部署。新增D1 SQLite数据库的Read Replication功能,自动路由读写请求,结合Sessions API保证数据一致性。AI服务扩展至50+开源模型,边缘推理延迟低至1-10ms。R2对象存储采用零出口费用模式,与S3兼容。全栈解决方案覆盖静态站点托管(Pages)、API构建、数据库和AI推理,相比AWS/Verc
2025-08-24 10:45:00
2189
原创 Vercel 全面调研报告 202508
Vercel技术团队解析:全明星阵容驱动Web开发未来 Vercel汇聚了全球顶尖Web技术专家,包括创始人Guillermo Rauch、CTO Malte Ubl等核心人物。团队由Next.js核心开发者、AI技术专家、Rust性能工程师组成,涵盖边缘计算、React架构、AI产品化等关键领域。通过战略收购招揽Delba de Oliveira等业界大牛,团队在开发者体验、AI SDK设计等方面取得突破性进展。Turbopack团队由Webpack创始人Tobias Koppers领衔,实现构建速度百倍
2025-08-23 10:15:00
1360
原创 LangChain 调用 Ollama 完整教程
本文提供了LangChain与Ollama集成的完整环境配置指南,包含Python虚拟环境创建、依赖安装(Ollama相关组件)、Ollama服务部署(含模型下载)等步骤。重点演示了三个基础使用场景:通过ChatOllama实现简单对话交互、利用提示模板生成烹饪指导、以及构建多轮对话系统。示例代码展示了如何初始化模型、设计提示模板并处理响应,其中红烧肉案例详细解析了思考过程和烹饪步骤,体现了模型的专业知识组织能力。
2025-08-02 09:00:00
883
原创 Ubuntu 部署 PaddleOCR 完整指南
本文详细介绍了PaddleOCR的安装部署流程,包括系统要求、环境准备、安装步骤、服务配置和部署管理等内容。系统推荐配置为4核CPU、8GB内存和20GB存储空间,需安装Ubuntu 22.04 LTS和Python 3.8-3.11。安装过程包括PaddlePaddle框架、PaddleOCR和PaddleX的安装,并提供依赖问题解决方案。服务配置部分介绍如何启动OCR服务、设置systemd服务和日志管理。最后提供测试验证方法和常见故障排除指南,如pip3缺失、OpenMP库缺失等问题的解决方案。整个文
2025-07-29 11:26:30
1405
4
原创 EMQX Webhook 调用本地 Supabase Edge Functions
本文介绍了在Supabase平台上配置MQTT消息处理系统的步骤。首先通过Docker检查服务状态,确认Edge Functions正常运行。然后在Supabase中创建了mqtt_messages表,包含消息ID、客户端信息、主题、负载等字段,并建立了相关索引。文章详细说明了Edge Function的配置过程,提供了完整的TypeScript代码示例,该代码处理MQTT消息,包括API密钥验证、数据解析和存储到Supabase数据库。最后给出了重启Edge Functions服务的Docker命令。整个
2025-07-28 19:44:15
536
原创 Docker 部署 Supabase并连接
本文介绍了使用Docker部署Supabase的完整流程。首先通过git获取Supabase代码并初始化项目目录,配置关键环境变量如PostgreSQL密码。详细说明了启动服务、解决端口冲突和CDN访问问题的方法,并提供了验证部署的测试命令。最后展示了Navicat连接PostgreSQL数据库的注意事项,包括特殊用户名格式要求。文中还包含各服务端口映射表,方便开发者快速定位服务入口。
2025-07-28 19:41:09
1384
原创 Genio 1200 Evaluation MT8395平台安装ubuntu
在MediaTek Genio 1200 EVK开发板上安装Ubuntu系统的过程
2025-06-12 10:57:40
1044
原创 EdgeOne Pages MCP 入门教程
本教程介绍了 EdgeOne Pages MCP(Model Context Protocol)的基本概念、配置方法、使用实例和技术原理。MCP 是一种开放协议,允许 AI 模型安全地与本地和远程资源交互。EdgeOne Pages Deploy MCP 服务可将静态网页内容一键部署到 EdgeOne Pages,并生成可公开访问的链接,支持单文件和文件夹/ZIP包部署。
2025-05-11 15:20:11
1782
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅