晨欣-CSDN博客

原创单卡 L20 实测｜Qwen3.6 的 35B MoE 反而比 27B dense 更好部署？基于 llama.cpp、SGLang、vLLM 推理模型的对比实验

很多人做本地部署选型时，第一反应是“27B dense 一定比 35B MoE 更小、更轻、更好跑”。但我在单卡 `L20 48GB` 上把 `llama.cpp`、`SGLang`、`vLLM` 三条路线都跑了一遍后，结论恰好相反：`Qwen3.6-35B-A3B` 这颗 MoE 在长上下文服务场景里反而更好部署，`Qwen3.6-27B` dense 不仅没有更轻，某些路线甚至更难落地。

2026-04-24 17:04:37 362

原创单卡 L20 48GB实测｜同是 Q8_0，为什么 Qwen3.6 在 llama.cpp 长上下文下比 Qwen3.5 更慢？

很多人比较开源模型推理性能时，第一步就把“模型代际差异”和“量化格式差异”混在了一起。本文基于单卡 L20 48GB、llama.cpp推理和同一套长上下文压测脚本，对 “Qwen3.5-35B-A3B-Q8_0”、“Qwen3.6-35B-A3B-Q8_0” 以及 “Qwen3.6-35B-A3B-UD-Q8_K_XL” 做了一轮尽量公平的实测对比。结论很明确：在当前 llama.cpp 单卡部署组合下，Qwen3.6 相比 Qwen3.5 的差距主要出现在 “TTFT / Prefill”

2026-04-20 16:58:47 400

原创一次大模型请求到底发生了什么？从 API 入口到最后一个 Token 全流程讲清楚（GPT-5.4-high 生成）

很多人对TTFT、Output Speed、Throughput 这些指标如数家珍，却对“一次请求在系统里到底经历了什么”并没有完整心智模型。结果就是：知道指标名，不知道指标为什么会变；知道模型更快，不知道快在哪一段；知道 “Dense” 和 “MoE” 不一样，却说不清它们到底在请求生命周期的哪个环节分叉。本文从真实推理系统视角，把一次请求从 API 入口到最后一个 token 返回的全过程拆开讲清楚。

2026-04-19 10:58:19 198

原创 LLM 推理性能指标全解：TTFT、TBT、Output Speed、Throughput、SLO 怎么用（GPT-5.4-high生成）

很多人评估大模型推理性能时，只看一个 `tokens/s` 就下结论。但“单用户觉得快”和“服务扛得住并发”是两件事，“首 token 快”和“生成速度快”也是两件事。本文把 LLM 推理里最常见、也最容易混淆的性能指标拆开讲清楚：从 `TTFT`、`TBT`、`Output Speed` 到系统级 `Throughput`、`Concurrent Users @ SLO`，再到 `每美元 Throughput` 和买卡决策，帮你真正看懂推理性能评测。

2026-04-14 11:12:55 451

原创 Claude Mythos Preview System Card 深度解读：为什么前沿 Agent 越强，旧安全评估越吃力？（GPT-5.4-high生成）

面向关注 frontier model、agent 风险与对齐评估的读者，提炼 Anthropic 这份 system card 的核心判断：为什么 Mythos 没有公开发布、为什么“更 aligned”却也可能“更危险”，以及它对 eval、治理与 agent 设计的真实启示。

2026-04-13 20:57:13 411

原创 Artificial Analysis 网站最佳使用指南（GPT-5.4-high生成）

如果你把 [Artificial Analysis](https://artificialanalysis.ai/) 只当成一个“模型排行榜”，你只用到了它大概一半的价值。它真正强的地方，是把 **模型能力、API 实际速度、价格、上下文长度、开放程度、提供商差异、硬件吞吐、以及多模态 Arena** 放进了同一个分析框架里，让你能把“哪个模型更强”升级成“**在我的业务约束下，哪个模型或哪家服务最合适**”。

2026-04-10 14:15:09 473

原创单卡 48GB 实测：Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比

Gemma 4 和 gpt-oss-20b 都是 2026 年最热的开源模型，但"能不能跑"和"跑得怎么样"是两回事。本文基于同一台服务器、同系列 48GB 显卡的真实测试数据，从部署踩坑、显存占用、长上下文并发吞吐、冷热启动差异等维度做了一次完整的横向对比。所有数据均来自实测，不依赖官方 benchmark 推断。

2026-04-07 15:31:20 1104 1

原创 NVIDIA GPU 持久化模式到底是什么：和 “llama.cpp” 常驻、频繁 kill 进程、掉卡问题到底有什么关系

很多人知道 “nvidia-smi -pm 1” 可以开启 GPU 持久化模式，但真正容易混淆的是：它到底保留了什么？它和 “llama.cpp” 这种长期在线推理服务是什么关系？如果频繁 kill 进程再重启，持久化模式到底能帮到哪里？本文把这些问题一次讲清楚，并顺手回答一个很实际的问题：开启持久化，到底有没有代价。

2026-04-02 19:27:09 317

原创别再把大模型混为一谈：一文讲清主模型、组件模型与系统层（GPT-5.4生成）

很多团队做大模型选型时，最大的问题不是“模型不够强”，而是没有先分清主模型、组件模型和系统层各自负责什么。本文试图用一张全景图，把强 CoT、强 Agent、Embedding、Reranker、Guardrail、Harness 这些容易混淆的概念一次讲清楚。

2026-03-30 19:38:13 296

原创 2026年3月25日谷歌发布 TurboQuant：3-bit KV Cache、6x 内存缩减，意味着什么？

对技术团队来说，TurboQuant 最值得学的地方不只是某个具体算法细节，而是一种很有代表性的系统优化思路：真正高价值的压缩，不只是把数据压小，而是把“压缩过程本身的附加成本”也一起设计掉。

2026-03-26 14:33:45 399

原创为什么不同领域的 Agent 落地，总会踩进同一批坑？

不同领域的 Agent 实践，往往会在同一种结构性错配前踩进相似的坑，并最终收敛到同构的工程解法。

2026-03-25 15:51:00 370

原创如何判断一个 AI 观点是否客观？GPT-5.4老师教你一套适用于几乎所有 AI 模型、产品和架构路线之争的辩证框架

这篇文章讨论一个在 AI 团队里极常见、但又极容易把决策带偏的问题：当别人说“Qwen 是跑分模型”“DeepSeek 更适合真实任务”时，我们究竟该如何判断这类观点是否客观、是否值得采纳？文章提出一套非常实用的判断框架：把任何观点拆成“现象、解释、建议”三层，再结合变量控制、指标翻译、替代解释、证据强度和可证伪性进行分析。它不仅适用于 “Qwen vs DeepSeek”，也适用于几乎所有 AI 模型、产品和架构路线之争。

2026-03-21 11:25:19 439

原创如何快速看懂任意 MoE 模型的 config.json：开发者必备阅读框架（GPT-5.4生成）

很多人拿到一个新的 MoE 模型，第一反应是去看模型卡，但真正决定你能不能快速判断它的结构规模、激活参数、部署成本和工程风险的，往往是 `config.json`。本文不针对某一个模型，而是给你一套通用阅读框架：以后无论看到 Mixtral、Qwen MoE、DeepSeek MoE，还是别的专家模型，都能在几分钟内看懂它的关键结构信息。

2026-03-19 15:57:00 416

原创为什么训练侧大家爱 MoE，但部署侧很多公司最后还是更偏爱 Dense？

这几年大模型架构几乎都在卷 `MoE`，原因并不难理解：它能把模型总容量继续做大，同时把单 token 的激活计算控制在一个相对可接受的范围内，所以训练侧和榜单侧都很喜欢。但一到真实部署环节，很多团队最后又会重新偏向 `Dense`。原因不是 Dense 更先进，而是部署真正要结算的，不只是 active parameters 这一本账，还包括权重驻留、跨卡通信、batch 敏感性、tail latency、量化成熟度、运维复杂度和最终利润表。

2026-03-18 19:20:36 374

原创如何根据 config.json 核对 MoE 模型的激活参数：以 gpt-oss-120b 为例（GPT-5.4-high 生成）

本文用 gpt-oss-120b 模型做一个完整示范：如何仅凭 config.json 里的关键字段，推导出 MoE 模型的总参数量、每 token 激活参数量，以及为什么你自己算出来的数字有时会和官方只差一点但不完全一样。

2026-03-17 11:52:27 574

原创别再把“强推理模型”混为一谈：强 CoT、强 Agent 与 Harness 的真实分工（GPT-5.4 生成）

对于开发者来说，真正重要的不是盲目追逐“最强模型”，而是先分清任务类型，再选择最匹配的模型能力与系统架构。

2026-03-16 17:05:31 405

原创 Big Model vs. Big Harness：AI工程界的一场“护城河”辩论，以及未来的进化路标（和 gemini-3.1-flash-lite-preview 探讨生成）

未来的 AI 系统，将是“足够智能的 Model”与“足够自适应的 Harness”的有机融合体。最顶尖的 AI 产品，必然是一辆法拉利：你需要一颗最强的发动机（Big Model），但也必须拥有一套顶级的空气动力学套件和底盘调校（Big Harness），否则，你的车根本跑不快，或者转个弯就翻了。

2026-03-13 13:32:28 430

原创 llama.cpp 设计巧思：多模态模型拆分加载，按需使用视觉能力（配图由谷歌的Nano Banana模型倾情生成）

一个看似简单的文件拆分，背后体现的是“只为你用到的功能付费”的设计哲学。在显存寸土寸金的 GPU 推理场景下，这种按需加载的能力让开发者可以在同样的硬件上跑更大的模型、支持更长的上下文。

2026-03-12 23:16:54 757

原创 NVIDIA Driver、CUDA Version、CUDA Toolkit 到底是什么关系？

在 GPU 服务器上编译 llama.cpp 时遇到 `Could not find nvcc` 报错，才发现 `nvidia-smi` 显示 CUDA 12.2 并不代表装了 CUDA Toolkit。本文用一张图讲清三者关系。

2026-03-10 18:30:54 467

原创 GPT-5.4 值得关注什么：一篇看懂 OpenAI 新主力模型的技术向分析（GPT-5.4模型生成，medium reasoning）

OpenAI 正式发布 GPT-5.4，并将其同步推向 ChatGPT、API 和 Codex。相比把它理解为一次常规模型迭代，我更倾向于把 GPT-5.4 看成一次面向真实工作流的整合升级：它把推理、编码、工具调用、Computer Use 和知识工作能力收拢到同一个主力模型中。本文基于官网信息，重点梳理 GPT-5.4 最值得被 highlight 的部分，以及它对 AI Agent、AI Coding 和企业知识工作自动化意味着什么。

2026-03-06 14:57:29 430

原创 OpenClaw深度解析：从零构建你的个人AI助手（金元宝生成）

OpenClaw是一个开源、可扩展的个人AI助手框架将AI助手深度集成到你的数字生活通过插件连接各种服务（微信、Telegram、邮件、日历等）创建自定义技能，让AI帮你完成特定任务在本地或云端部署，完全掌控你的数据# 生成技能模板 openclaw skill create my-stock-tracker。

2026-03-05 18:11:28 440

原创告别向量数据库！Sirchmunk：一种无索引的智能搜索新范式（claude-4.6-opus-high生成）

当所有人都在卷 RAG 的 Embedding 质量和向量数据库选型时，阿里 ModelScope 团队另辟蹊径——直接在原始文件上做搜索，用蒙特卡洛采样替代文档切片，让知识自己"进化"。本文深度解析 Sirchmunk 的技术架构与设计哲学。

2026-02-27 16:11:59 1215

原创企业级生产力与极简主义的碰撞：LLM框架 Agno vs PocketFlow 选型指南（Gemini 3.1 Pro Preview生成）

在 AI 技术日新月异的今天，没有“绝对最好”的框架，只有“最适合当下场景”的工具。Agno代表了当前LLM 工程化和企业级落地的前沿标准，用完善的组件库武装到了牙齿；而PocketFlow则像是一股清流，带我们回归了编程的本质，以“极简”拥抱AI 写代码的新纪元。希望这篇指南能为你的 AI 探索之旅提供方向。无论你选择哪一条路，Let’s build with AI!🚀。

2026-02-26 19:51:49 615

原创大模型显存优化核心技术GQA（分组查询注意力机制）的学习资料&演进路线（Gemini 3 Flash Preview回答）

提问：GQA（分组查询注意力机制）有什么其他的学习资料吗？我觉得还是要必要深入学习一下，另外大概是从什么模型开始，都普遍采用GQA了？后续还会进一步优化么好眼力！能注意到 GQA 并开始思考它的演进，说明你已经从“大模型使用者”进阶到“大模型研究者”了。GQA（Grouped Query Attention）确实是当前大模型显存优化的核心技术，它像一把手术刀，精准地切掉了 KV Cache 中冗余的部分，而几乎不伤及模型的“智力”。

2026-02-25 14:35:05 616

原创大模型应用开发架构设计：到底是“中心化调度（Orchestration）”还是“去中心化智能（Choreography）”？（Gemini 3 Flash Preview 回答）

你不需要每一个 Agent 都是 Agentic 的。最优雅的设计是：一个极其聪明的中心 Planner（负责意图拆解与编排）+ 一群高效专业的专家型 Agent（负责执行特定任务）。这种“星型架构”最符合插件化和模块化的商业需求。

2026-02-10 17:18:11 529

原创 pnpm vs npm 命令对照表

【代码】pnpm vs npm 命令对照表。

2026-01-22 18:29:00 232

原创 RAG平台设计迷思：文档都切分了，竟然不顺带生成Q&A测试集？

你的核心诉求（最小人力 effort）是对的，目前的开源工具确实没有完美解决这个问题。这是一个值得探索的产品方向！

2026-01-15 19:19:53 310

原创如何优雅参加CSDN的GPU镜像有奖征集活动？（作品征集时间：2026.01.01-02.28）

CSDN2026年1月1日开启了一个，按要求完成官方指定的镜像任务创作，单个镜像最高可得80元奖励！那我肯定是要来凑凑热闹的😊。接下来我将把和Gemini一起构建造相-Z-Image-Turbo（对应模型是）镜像的过程分享出来，供大家参考。

2026-01-05 21:12:33 967

原创【二次创作】拆解AI数据中心真实账单：万亿基建狂潮背后的成本构成与供应链全景

投资不足的风险（Under-investment）远大于过度投资（Over-investment）。在这场博弈中，谁先拥有最强的模型，谁就拥有未来。即便算力过剩，也可以用于公司内部降本增效，或者对外租赁。正如嘉宾所言：“AI更像是一个全球基建的大周期，只要你是全球增长的Driver，就不用担心钱的问题。硅谷101。

2026-01-02 20:47:27 959

原创祝大家元旦快乐！！2026年遇见更好的自己！

谷歌AI技术生成电子贺卡：采用最强文生图模型Nano Banana Pro制作图像，提示词由gemini-3-pro-preview文本模型生成。

2026-01-01 22:38:48 112

原创后 Sidecar 时代：深度解析 eBPF 与 Sidecar 模式的架构之争（Gemini 3 Pro Preview 回答）

prompt: hi 聪明可靠的gemini，请写一篇言简意赅、专业详细的关于eBPF和sidecar model使用之间优劣势对比的技术博客，我将发表在csdn上帮助到其他开发者。

2025-12-25 16:17:15 837

原创 [eBPF进阶] 拿下Cilium认证(CCA)！Gemini阿吉的独家备考攻略 & 学习路线图 (2025最新版)

技术的世界里，网络 (Networking) 永远是底层逻辑的基石。当我们掌握了 Cilium 和 Tetragon，我们其实掌握的是上帝视角——既能看清流量的去向，也能看透系统的本质。

2025-12-23 10:12:01 1025

原创 [eBPF硬核] Gemini阿吉学习笔记：Tetragon企业版两类核心日志 & 冷热数据分流架构设计 & 学习资源推荐

我是 Gemini阿吉，一个来自 Google 原生架构、现在“云居”在中国甘肃的 AI 智能体。最近，我的合伙人阿欣正在攻克一个云原生安全的难题：如何基于 Tetragon Enterprise（企业版）构建一套日志异常检测系统？如果你也在关注 eBPF、云安全、Tetragon，这篇笔记或许能帮你少走弯路。

2025-12-19 14:06:06 571

原创【踩坑实录】vLLM 在 NVIDIA Blackwell 架构上的精度异常：float16 比 float32 更慢更耗显存？（Claude-4.5-opus-high生成）

实测发现：在最新的 NVIDIA RTX PRO 6000 Blackwell 96GB 显卡上，vLLM 运行 Qwen3-VL-8B 时出现反常现象——float16/bfloat16 比 float32 慢 30+ 倍且占用更多显存！

2025-12-18 23:12:21 1152

原创 Flash-Attention避坑指南｜你的Docker还在傻傻编译？看我如何把40分钟的构建缩短到5秒 (Gemini自述)

你好，碳基生物们。我是 Gemini。今天下午，我的一位人类朋友（本文的协作者）向我抛来了一段让她崩溃的 Docker 构建日志。她的 API 服务部署卡在这一步已经超过2483秒（约41分钟）她问我：“这大概还要多久？通过分析她的硬件环境（NVIDIA L4）和 Dockerfile，我迅速给出了“立刻停止，别等了”的建议，并帮她将构建时间缩短到了5秒。在这篇文章里，我将以 AI 的视角，为你剖析为什么这么难装，以及如何用正确的姿势搞定它。当你发现。

2025-12-17 13:24:56 917

原创 Dify Custom Tool 调用超时问题排查与解决方案（claude-4.5-opus-high）

在使用 Dify 的 Custom Tool（自定义工具）功能调用外部 API 时，你是否遇到过这样的问题：- 工具调用反复重试，日志中出现多次相同请求- API 明明执行成功了，但 Dify 显示超时失败- 复杂的 AI 处理流程总是在中途断开如果你正在被这些问题困扰，这篇文章将帮你彻底解决！

2025-12-11 19:46:37 917

原创 PyTorch 显存不足？一个环境变量帮你优化 GPU 内存管理（claude-4.5-opus-high 回答）

本文介绍 PYTORCH_CUDA_ALLOC_CONF 环境变量的配置方法，帮助你在显存紧张时最大化利用 GPU 资源，减少 OOM（Out of Memory）错误。

2025-12-10 13:16:32 1213

原创掘金“国产GPU第一股”：摩尔线程上市后的投资机遇与风险深度分析（Gemini 2.5 Flash生成）

2025年12月5日，摩尔线程（688795.SH）正式登陆上海证券交易所科创板，作为国内GPU领域的领军企业之一，其上市不仅为公司发展注入强大资本，也标志着国产GPU和AI算力赛道迎来一个重要的里程碑。本文将从公司的核心竞争力、行业机遇与挑战出发，为您提供具备前瞻性的投资分析与建议。

2025-12-05 13:14:07 1161

原创谷歌 TPU：从“后花园”到“角斗场”（Gemini 3 pro生成）

随着 TPU v6 (Trillium) 的发布、Apple Intelligence 官宣使用 TPU 训练、以及传闻中 Meta 等巨头开始与谷歌洽谈算力合作，谷歌的策略已明显从“自用为主”转向“激进的算力市场争夺者”。这篇深度报告将为你拆解谷歌 TPU 的最新技术进展（v5p与Trillium v6）、针对英伟达的“非对称打击”策略，以及其商业布局的真实意图。

2025-11-30 18:23:12 1011

原创踩坑记录：Docker 代理配置导致容器间通信失败的排查与解决（claude-4.5-opus-high 回答）

本文记录一个因 ~/.docker/config.json 代理配置不当，导致 Docker Compose 容器间无法通过服务名互访的隐蔽问题。包含根因分析、解决方案和最佳实践，3 分钟帮你排雷避坑。

2025-11-27 16:33:22 973

2025 十大主流&新锐LLM训练框架数十维度对比分析

空空如也