手写码匠-CSDN博客

原创手写系列：从零实现一个极简大模型推理引擎

当你调用 OpenAI API 或者本地跑通 DeepSeek 时，有没有好奇过——那些动辄百亿参数的大模型，到底是怎么在 GPU 上"跑"起来的？答案藏在推理引擎里。输入文本 → Tokenize → Embed → Transformer 逐层计算 → LM Head → 采样 → 输出文本今天我们就从零实现一个极简推理引擎。不在乎性能、不追求优化，只求把推理链路讲透。代码用 Python + NumPy，能跑通一个 2 层 Attention 的迷你模型就行。

2026-06-07 07:00:25 313

原创手写 DeepSeek 推理引擎优化：从 FP16 到 INT4 的量化加速实战

"""量化线性层：权重以 INT4/INT8 存储，在 FP16 精度下计算"""self,):# 量化权重缓冲区"""将 FP16 权重量化为 INT4/INT8"""# INT4 特殊处理：每 2 个 4-bit 值打包为 1 个 byteelse:"""INT4 权重量化并打包：原始形状: [out_features, in_features] → q_weight: [out_features, in_features/2]每两个 INT4 值打包为一个 UINT8"""

2026-06-06 07:00:26 584

原创手写 Mini Dify：从零构建可视化 AI 工作流引擎

Dify 是当前最受欢迎的开源 LLM 应用开发平台之一，它通过可视化的方式让开发者能够快速搭建基于大语言模型的 AI 应用。从简单的聊天机器人到复杂的 RAG 检索增强生成系统，再到多步骤的 Agent 工作流，Dify 提供了一套完整的工具链。但你是否想过，Dify 的底层是如何工作的？当一个拖拽节点在你面前流畅地串联时，背后发生了什么？今天，我们就从零开始，亲手构建一个Mini Dify——一个简化版的可视化 AI 工作流引擎。@dataclass。

2026-06-05 07:00:25 510

原创手写 KV Cache 管理与量化推理引擎：从零构建高效 LLM 推理内核

从最基础的 KV Cache 到量化推理引擎，我们从零构建了一个完整的 LLM 推理内核。1. KV Cache 是推理的加速杠杆自回归复杂度从 O(t²) 降至 O(t)，其管理方式（预分配、滚动窗口、分页）直接影响上下文长度和并发能力。2. 量化是突破显存/带宽瓶颈的天梯INT8 将模型和 KV Cache 体积砍半，W4A16 更达 75% 压缩。对带宽受限的解码阶段，这直接转化为吞吐量翻倍。3. 生产级推理是系统工程。

2026-06-04 09:39:27 631

原创手写 Prefix Caching：从零构建 LLM 提示词缓存引擎

dataclass"""缓存配置"""block_size: int = 16 # 每个缓存块包含的 token 数max_cache_blocks: int = 4096 # 最多缓存的 KV Block 数eviction_policy: str = "lru" # 淘汰策略: "lru" 或 "lfu"enable_kv_cache: bool = True # 是否同时启用常规 KV Cache@dataclass"""单个 KV Cache Block 的数据"""

2026-06-04 09:38:55 261

原创手写 AI 文本到语音（TTS）系统：从零实现语音合成引擎

本文从零实现了一个完整的 TTS 系统，覆盖了从文本前端处理到波形生成的全流程。架构设计：基于 FastSpeech 非自回归架构，编码器-持续时间预测器-长度调节器-解码器-声码器五段式结构。相比自回归模型推理速度快 10 倍以上，且支持独立的语速控制。文本前端：文本规范化 + 音素转换是 TTS 系统的"入口关"——看似简单，但数字、缩写、多音字等边缘情况需要仔细处理。声学模型：通过多头注意力捕捉文本中的长距离依赖关系，通过持续时间预测器解决文本-语音长度不对齐的难题。

2026-06-03 09:24:07 600

原创从零手写低代码渲染引擎：核心原理与实战解析

在这篇文章中，我们从零起步，一步步构建了一个功能完整的低代码渲染引擎。模块核心能力关键设计组件注册表组件注册、查找、批量管理单例模式、类型安全渲染引擎Schema 解析、递归渲染、上下文传递表达式引擎数据绑定、动态取值、沙箱执行+ Proxy 沙箱条件渲染visible/disabled 条件、多运算符AND 逻辑求值器事件系统事件声明、动作链、动作分发Action 队列、异步调度布局系统24 栅格、Flexbox 布局Row/Col 设计性能优化。

2026-06-02 07:00:31 364

原创华为云Flexus+DeepSeek征文｜基于华为云Flexus X实例 + Dify + DeepSeek 构建企业级智能知识库问答系统实战

上手极快，零门槛启动。从零开始到第一个问答运行，全程不超过1小时。其中Flexus实例购买约2分钟，Dify一键部署约8分钟，模型配置约5分钟，剩下的时间都在测试和调优。成本可控，按需付费。整个开发测试环境的实际消耗不到10元。生产环境中，即使是4vCPUs/8GB规格的Flexus实例24小时运行，月成本也仅300-500元，加上MaaS推理服务的Token消耗，总成本远低于自建GPU服务器。扩展灵活，阶梯式升级。

2026-06-01 07:00:29 502

原创手写 AI 向量数据库：从零实现 HNSW 索引与高效相似度搜索

大模型应用的爆发让"向量检索"从一个冷门技术变成了 AI 工程师的必备技能。无论是 RAG（检索增强生成）、语义缓存、多模态搜索还是推荐系统，背后都需要一个高效的向量检索引擎。但大多数人只停留在「调 API 用 Milvus/Pinecone」的阶段。当面试被问到「向量数据库底层怎么实现的？」、「HNSW 的算法原理是什么？」时，往往一脸茫然。从零手写一个支持 HNSW 索引的向量数据库引擎，让你彻底掌握其核心原理。全文约 5500 字，包含完整的可运行代码。向量检索的核心问题：给定一个查询向量q。

2026-05-31 09:26:29 344

原创手写 AI 内容摘要系统：从零实现智能文档摘要与关键信息提取

信息爆炸时代，每天产生海量的文档、文章、报告需要阅读。用大模型做摘要已经成了标配，但直接调用 ChatGPT API 做摘要和手写一套完整的内容摘要系统之间，隔着整整一个工程化实现的距离。我们需要处理长文档分片、多种摘要策略（抽取式/生成式/分层式）、关键信息提取、以及最终的结构化输出。这篇文章我们从头写一个完整的 AI 内容摘要系统，覆盖从文本预处理到结构化摘要输出的全流程。内容摘要不是简单地把大段文字丢给 LLM 让它"总结一下"。策略原理适用场景速度质量抽取式 (Extractive)

2026-05-31 09:25:58 511

原创手写 AI 知识图谱：从零实现知识抽取与关系推理

模块核心代码关键设计图存储引擎~150 行名称去重、双向索引、灵活查询命名实体识别~80 行词典匹配、最长匹配优先关系抽取~70 行模式匹配、多实体配对推理引擎~120 行传递闭包、组合推理、置信度路径查询~80 行BFS 图遍历、邻域分析持久化~70 行JSON 序列化/反序列化所有代码加起来不到 600 行，却实现了一个可用的知识图谱系统。

2026-05-31 09:25:26 425

原创手写 KV Cache 从零实现：理解 LLM 推理加速的核心技术

在这篇文章中，我们从零实现了 KV Cache 的核心机制，并深入分析了它的原理与优化方向。核心要点回顾：KV Cache 解决什么问题？自回归推理中的重复计算。将 O(n²) 的计算量降低到 O(n)，长序列场景加速比可达 5-10 倍KV Cache 的成本是什么？内存。对于 32K 上下文的 LLaMA-70B，KV Cache 需要 40GB 显存。它已经从"加速工具"变成了"长上下文的主要瓶颈"如何优化 KV Cache？缓存复用（多轮对话场景）滑动窗口（StreamingLLM）

2026-05-30 07:01:03 741

原创华为云Flexus+DeepSeek征文｜万字实战：MaaS 推理服务 + Dify 高可用部署 + AI Agent 开发全流程

通过这次完整的技术实践，我体验了从MaaS 推理服务开通 → Flexus X 实例部署 Dify → AI Agent 工作流搭建的全链路流程。门槛大幅降低：以前从模型到应用至少需要 2 周，现在 2 小时就能跑通企业级能力完备：高可用部署、混合检索、Reranker 排序，该有的都有成本透明可控：按需付费 + 弹性计费，小团队也能用得起DeepSeek 系列质量过硬：V4-Flash 的性价比惊人，V4-Pro 的旗舰能力让人印象深刻第 1 周。

2026-05-30 07:00:28 249

原创 DeepSeek 大模型本地部署与云端部署全指南：从环境搭建到生产化实践

本文系统性地介绍了 DeepSeek 大模型从本地部署到生产化的完整方案。个人开发者首选 Ollama + 蒸馏版模型，一条命令即可运行，零配置学习成本。结合量化技术，6-8GB 显存的 GPU 就能流畅运行 7B 级别的模型，日常编码辅助完全够用。企业内部服务。

2026-05-29 07:00:26 873

原创手写 Speculative Decoding（投机解码）：大模型推理加速的工程实现

方案草稿模型接受率加速比额外训练复杂度标准投机解码独立小模型60-80%2-3x否低Medusa预测头70-85%2-4x是（轻量）中EAGLE特征预测头80-90%2.5-3.5x是（轻量）中DeepSeek 分层多级小模型75-90%2.5-3.5x否高本文从零开始构建了一个完整的投机解码系统，覆盖了从算法原理到工程实现的全链路。

2026-05-28 07:00:28 804

原创从零手写 SQL 查询引擎：解析器、优化器与执行器实战

token.py# ── 关键字 ──# ── 聚合函数 ──# ── 标识符与字面量 ──STRING = auto() # 字符串字面量# ── 运算符 ──= <># ── 标点 ──EOF = auto() # 文件结束标记"""词法单元"""在执行引擎之前，我们需要定义执行计划（PlanNode）的节点类型。# executor.py - PlanNode 定义"""执行计划节点基类""""""返回一行数据（列值列表），没有数据时返回 None"""pass。

2026-05-27 07:00:28 763

原创手写 Flash Attention：从算法原理到高性能实现

Transformer 模型中，Self-Attention 的计算复杂度和内存占用随序列长度呈平方增长。面对 8K、16K 甚至 128K 的上下文窗口，标准 Attention 的显存消耗变得不可接受。Flash Attention 通过分块计算和内存感知的 IO 优化，在不牺牲精度的前提下把 Attention 的显存占用从 O(N²) 降到 O(N)，并把端到端速度提升 2-4 倍。本文从零开始，用 PyTorch 一步步实现 Flash Attention。

2026-05-26 07:00:27 374

原创手写 RLHF（强化学习人类反馈）：从零实现大模型对齐训练

我们有一个人工标注数据集：对于同一个 prompt（指令），标记者比较了两个不同的模型回答 $y_1$ 和 $y_2$，给出了偏好判断：$y_1 \succ y_2$（回答 1 优于回答 2）。我们的目标是训练一个奖励函数 $r_\phi(x, y)$（由参数 $\phi$ 定义的神经网络），使得：$$r_\phi(x, y_1) > r_\phi(x, y_2) \quad \text{当且仅当} \quad y_1 \succ y_2$$直觉层面。

2026-05-25 07:01:01 547

原创手写 MoE（混合专家模型）：从零实现大模型的稀疏激活架构

MoE 将单一的 FFN 替换为 $N$ 个并行的 FFN（称为"专家"）：其中 $G(x) \in \mathbb{R}^N$ 是门控网络的输出，表示每个专家的权重。但这还不是稀疏的——如果所有专家都参与计算，那和普通 FFN 没有任何区别（甚至更慢）。MoE（混合专家模型）是当前大模型架构中最重要的创新之一。它通过稀疏激活打破了模型能力与计算量之间的线性关系，使得参数总量可以持续增长而推理成本可控。核心要点回顾：路由（Routing）

2026-05-25 07:00:29 569

原创 Android 17 适配实战指南：新特性解读、隐私变更与迁移全攻略

Android 17 是一个"重底层、轻表层"的版本。它没有大幅修改 UI 设计语言，也没有引入新的交互范式，但在底层架构上做了一系列重要的加固和革新。隐私安全强制化、AI 能力系统化、渲染管线全面硬化——这些变化的共同指向只有一个：让 Android 成为更安全、更智能、更流畅的平台。隐私变更排第一——先解决好 Breaking Changes，再谈新特性SDK 生态先更新——升级第三方依赖能解决 80% 的兼容问题折叠屏不是小众——40% 的年增长率证明它是确定性趋势AI 能力现在就要布局。

2026-05-24 07:00:59 678

原创深入解析大模型架构之争：全能通用模型 vs 领域专精模型

通用模型和专精模型之争，本质上是"One Size Fits All"与"The Right Tool for the Right Job"的工程哲学之争。两条路线各有其理论基础和实践场景，不存在绝对的对错。通用模型不断变大：GPT-5/GPT-6 和 Gemini 3.0 会进一步拉高通用能力的上限专精模型不断变精：领域数据策略和架构优化的深度远超想象两者走向融合：MoE + LoRA 等技术让一个系统内同时具备通用和专精能力通用模型与专精模型的这场较量，与其说是"对决"，不如说是"分工"。

2026-05-24 07:00:27 567

原创从零实现一个轻量级向量搜索引擎（Python 版）

算法原理：HNSW 的层级图导航、贪心搜索、启发式邻居选择完整实现：不到 400 行 Python 代码，包含搜索、插入、删除、更新、持久化实战验证：在 10 万级数据集上达到 0.85 ms 搜索速度和 97%+ 召回率进阶优化：乘积量化 (PQ)、批量插入、并行搜索。

2026-05-23 07:00:26 1053

原创【实战评测】华为云 MaaS 平台 DeepSeek 大模型推理服务 + Dify 一键部署全攻略

2025 年以来，DeepSeek 系列模型凭借其出色的推理能力和极具竞争力的价格，迅速成为国内开发者社区的热门选择。无论是 DeepSeek-V3 的综合能力，还是 DeepSeek-R1 在数学推理与代码生成方面的惊艳表现，都让人看到了国产大模型的真正实力。然而，模型强不等于应用强。部署门槛高：自建推理服务需要 GPU 算力，成本动辄数万运维复杂度高：模型版本管理、负载均衡、弹性伸缩都需要专业 infra 能力应用集成难：模型跑起来了，怎么和业务系统对接？怎么搭建 RAG 流程？怎么处理多轮对话。

2026-05-22 07:00:29 823

原创手写 DeepSeek 推理引擎：从零实现大模型高效推理加速

本文从零开始构建了一个面向 DeepSeek 架构的高效推理引擎，覆盖了 MLA 注意力实现、分页 KV Cache、MoE 专家调度、连续批处理、INT4 量化、推测解码等核心优化技术。回顾要点1.理解架构才能做好优化：DeepSeek 的 MLA 和 MoE 直接决定了 KV Cache 和计算调度策略2.连续批处理是现代推理引擎的基础设施：不做 CB 的推理引擎上限极低3.量化是性价比最高的优化：INT4 几乎无损地降低 3/4 显存4.推测解码的潜力在继续释放。

2026-05-21 07:00:30 574

原创 Radeon 显卡跑大模型：ROCm 环境配置与 DeepSeek 本地部署全攻略

大模型本地部署不是 N 卡专属。AMD Radeon 显卡凭借大显存和逐渐成熟的 ROCm 生态，正在成为高性价比的 AI 推理选择。本文记录一套经过实测的 ROCm 环境搭建流程，以 Radeon RX 7900 XTX（24GB）为例，完整演示从驱动安装到 DeepSeek-R1 推理，再到生产级 API 服务的全过程。所有步骤均在 Ubuntu 22.04 LTS 上验证通过。AMD Radeon 显卡在本地大模型推理场景中已经是一个真实可用的选择。回到开头的问题：ROCm 到底能不能用？

2026-05-20 07:00:27 1024

原创手写 Transformer：从零实现多头注意力机制与完整架构（附完整代码）

亲手实现 Transformer 并训练它，和只调 API 是完全不同的体验。这里分享几个在训练过程中最容易踩坑的地方和对应的解决方案。原始 Transformer (2017)/ | \/ | \| | || | || |本文从零手写了一个完整的 Transformer 模型，涵盖了从 Scaled Dot-Product Attention 到完整 Encoder-Decoder 架构的全部组件。Attention 的本质：Query 找 Key，用相似度加权 Value。

2026-05-19 07:00:57 637

原创手写 AI 推理加速引擎：从零实现 KV Cache 与 Speculative Decoding

大模型推理慢是生产环境的第一痛点。同样是 7B 模型，naive 逐 token 生成和经过优化的推理引擎，吞吐差距可达5-10 倍。本文不依赖任何推理框架，从零手写 KV Cache 和 Speculative Decoding 两大加速技术，代码可直接运行，效果立竿见影。KV Cache：缓存历史 K/V 矩阵，消除 attention 的重复计算。实现简单，加速效果 5-15x，是所有推理框架的标配。代价是额外的显存开销。：用小模型草稿+大模型验证打破串行瓶颈。

2026-05-19 07:00:26 364

原创手写 LoRA 微调：从零实现大模型高效微调（附完整代码）

本文从零实现了一个完整的 LoRA 模块，涵盖了从低秩分解的数学原理到实际训练的全流程。LoRA 的本质：冻结主干 + 低秩旁路 = 极少的可训练参数数学公式：(\Delta W = BA)，计算顺序 (B(Ax)) 更高效工程关键：B 初始化为零、选择合适的 r 和 alpha、只收集 lora_ 参数部署友好：推理前合并权重，零额外开销可扩展：多任务场景下可部署数十个适配器，共用基座模型。

2026-05-18 07:01:30 751

原创手写 AI 文本分类系统：从零实现 Zero-Shot 与 Few-Shot 文本分类

本文从零构建了一套完整的 AI 文本分类系统。Zero-Shot 分类适合快速验证和类别频繁变化的场景，Prompt 模板和蕴含推理是两种主流实现方案。在无任何标注数据的情况下即可达到 70%+ 的准确率。Few-Shot 分类通过 3-5 个精心选择的标注示例，可将准确率提升到 85%+。关键在于示例选取策略——聚类中心和多样性采样是最实用的两种方法。生产实践方面，缓存系统可将 API 调用量减少 30-50%，批量处理引擎和断点续传能力保证大规模任务稳定运行。

2026-05-18 07:00:59 364

原创手写 AI 重排序系统：从零实现搜索结果精排与相关性优化

查询："Python 如何读取 CSV 文件"正样本："使用 pandas.read_csv() 可以读取 CSV 文件..."普通负样本："Python 是一种解释型编程语言..."硬负样本："文件操作是 Python 的基本功能，open() 函数可以打开文件..."硬负样本是与查询语义接近但不相关的文档——重排序模型最容易混淆的就是它们。挖掘硬负样本能让模型学到真正的辨别能力。核心算法：基于 Cross-Encoder 的精排推理引擎，60 行代码完成核心逻辑。

2026-05-18 07:00:27 253

原创手写实现 RAG 检索增强生成系统：从零搭建完整流水线

RAG 系统的核心哲学是"让模型在事实的锚点上生成答案"。它不是要用检索替代模型的推理能力，而是给模型提供可靠的信息源，让模型在"上知天文下知地理"的同时，还能做到"言必有据"。文档加载：支持多格式统一接入，从纯文本到 Markdown，从单个文件到目录递归文本分块：递归分割器保证语义完整性，配合重叠策略避免信息断裂向量嵌入：BGE 模型 + 缓存加速，理解语义空间的工作原理向量存储：FAISS 索引 + 批量检索，掌握相似度搜索的实现混合检索。

2026-05-17 07:00:57 903

原创手写 AI 模型量化系统：从零实现 INT8 量化与推理优化

量化基础：对称/非对称量化、Per-Tensor/Per-Channel/Per-Group 三种粒度校准方法：完整实现了 MinMax、Percentile、KL 散度、MSE 优化四种策略量化层实现：全连接层（卷积层也用 im2col 转了矩阵乘）、激活函数、LayerNorm 的处理策略推理引擎：校准 → 量化 → 推理的完整流水线，以及模型大小对比分析评估体系：MSE、PSNR、余弦相似度三指标从不同维度衡量量化精度进阶技术。

2026-05-17 07:00:26 173

原创手写 AI Prompt Injection 防护系统：从零实现 LLM 安全边界

输入层：关键词匹配和格式验证，过滤明显恶意输入语义检测层：基于向量嵌入的意图相似度分析，检测未知攻击输出验证层：检查 LLM 输出是否包含敏感信息或指令泄露权限执行层：基于角色和速率的工具调用控制，确保损害可控这四层构成了完整的"纵深防御"体系——任何单层被绕过，后继层仍可拦截。在实际部署中，建议配合定期更新参考样本、审计日志分析和异常降级策略，将安全性提升到可接受的水平。防护系统的关键在于永远假设攻击者比你聪明。一个足够坚定的攻击者迟早能找到绕过方法。

2026-05-16 06:00:25 820

原创手写 AI 缓存系统：从零实现语义缓存与结果复用

精确缓存层：基于 LRU + 双向链表的 O(1) 查找，结合 TTL 过期和内存上限控制语义缓存层：嵌入向量 + 余弦相似度，识别语义相似但表述不同的查询缓存策略引擎：两级缓存穿透保护，写穿透保证数据一致性运维工具：缓存监控、性能指标、预热策略、雪崩和击穿防护查询固定且重复率高：只需精确缓存，语义缓存收益有限自然语言查询、用户表述多样：必须启用语义缓存，相似度阈值从 0.92 开始调优热点数据频繁更新：缩短 TTL（300-600秒）+ 写穿透模式冷启动场景。

2026-05-15 06:00:27 736

原创手写文本分块系统：从零实现智能 Chunking 策略

文本分块是 RAG 系统中看似简单、实则影响深远的环节。基础算法：固定长度分块和递归字符分块，适合大多数通用场景高级策略：语义分块和 Token 感知分块，解决特定场景的精度需求生产优化：渐进式重叠、元数据增强、自适应分块，提升实际部署效果评估体系：量化指标和验证机制，确保分块质量可控可测量未来的发展趋势端到端学习：利用训练的模型直接预测最佳分块位置，取代人工规则动态分块：根据查询内容动态调整分块粒度——简单问题用大块，精确问题用小块多模态分块：从纯文本扩展到图文混合、表格、代码等多模态内容。

2026-05-14 06:00:28 724

原创手写 AI 智能路由系统：从零构建多模型调度与负载均衡

我们手写了一套完整的 AI 智能路由系统，涵盖模型池管理、请求特征提取、多策略路由决策、负载均衡、熔断保护和重试机制。全系统只用 Python 标准库加 httpx，没有依赖任何 AI 框架。不让用户请求全部涌入同一个模型，而是根据请求的真实需求，把合适的问题交给合适的模型处理。架构上它分为五个松耦合的模块——特征提取、路由引擎、策略配置、模型池、执行层——每个模块都可以独立替换和优化。当你的项目从"调一个模型试试"进化到"多模型生产环境"时，这套系统能帮你省下可观的账单，同时给用户提供更可靠的体验。

2026-05-13 06:00:27 631

空空如也

空空如也