Leo_123Chen-CSDN博客

原创 009、大模型推理与部署优化：量化、剪枝、KV缓存与服务框架

客户在等响应，运维在催工单，我对着监控面板苦笑：这大模型部署上线，真不是训练完扔个PyTorch脚本就能搞定的事。最好的优化方案往往是业务场景倒推出来的——先让服务跑起来，收集真实数据，再针对性地剪枝量化。我们有个项目用非结构化剪枝，理论上压缩70%，实际推理速度只提升15%——稀疏计算没硬件支持就是纸面数字。我们吃过亏——在A100上量化的模型放到T4上推理，精度掉得亲妈都不认。现在我们的技术栈：vLLM做基础服务，Triton部署稳定版本模型，自己写的中间件做业务逻辑封装。别把所有鸡蛋放一个篮子里。

2026-04-06 08:30:00

原创 008、指令微调与对齐：SFT、RLHF与DPO技术原理与实践

上周在部署一个企业内部问答模型时，遇到了典型问题：模型在通用测试集上表现优秀，但实际用户反馈“回答太官方，不解决实际问题”。比如用户问“报表导出慢怎么办”，模型照搬手册上的“检查网络和服务器负载”，而老员工都知道真实原因往往是某个特定数据库索引缺失。每次看到模型生成那句恰到好处的“这个问题需要查一下最新文档，我先给您临时方案”，就知道凌晨三点的调试值了。收集人类对多个模型回答的排序数据（如A比B好），训练一个奖励模型来打分。我们准备一批高质量的指令-回答对，让模型学习“人类想要什么样的回答”。

2026-04-05 21:32:37 136

原创 007、大模型高效训练技术：分布式训练、混合精度与梯度优化

这些技术迭代太快，今天的最佳实践明年可能就过时了。但核心思想不变——让计算更密集，让通信更高效，让数值更稳定。保持动手实验的习惯，别人的经验再丰富，也不如自己把显存跑炸一次来得深刻。

2026-04-02 14:00:00 3

原创 006、预训练范式革命：掩码语言建模与自回归语言建模

昨天在调试一个文本生成任务，模型在生成长文本时后半段开始胡言乱语。同事看了一眼说：“你这用的是自回归模型吧？试试掩码预训练的版本。” 一句话点醒了我——不同的预训练范式，在实际场景中的表现差异比想象中更大。

2026-04-02 09:39:06 8

原创 005、Transformer架构深度解析：编码器、解码器与自注意力

上周调一个多模态模型，输入序列长度刚到512，推理速度直接掉了一半。profile工具拉出来一看，70%的时间耗在attention计算上。同事凑过来看了一眼：“你这用的是原始的多头注意力吧？序列一长，这平方复杂度可扛不住。” 一句话点醒——是时候重新啃一遍Transformer的老底了。

2026-04-01 14:00:06 653

原创 004、语言模型核心：词嵌入、注意力机制与位置编码详解

上周在部署一个轻量化BERT模型时遇到个怪事：同一个句子，只是调换了两个词的顺序，模型输出的语义相似度居然相差了30%。去年优化一个检索模型时，我把注意力头的数量从12减到8，同时把每个头的维度从64提到96，总参数量不变，但效果提升了1.2个点。RNN天生有顺序概念，但Transformer是并行处理所有词的，必须显式告诉模型“哪个词在前，哪个词在后”。这就是位置编码的使命。今天我们就拆开语言模型的黑箱，看看词嵌入、注意力机制和位置编码这三个核心部件到底是怎么工作的，以及实际工程里有哪些容易踩坑的地方。

2026-04-01 11:56:48 159

Leo_123Chen的博客

原创 009、大模型推理与部署优化：量化、剪枝、KV缓存与服务框架

原创 008、指令微调与对齐：SFT、RLHF与DPO技术原理与实践

原创 007、大模型高效训练技术：分布式训练、混合精度与梯度优化

原创 006、预训练范式革命：掩码语言建模与自回归语言建模

原创 005、Transformer架构深度解析：编码器、解码器与自注意力

原创 004、语言模型核心：词嵌入、注意力机制与位置编码详解

原创 003、神经网络基础：从感知机到Transformer的架构演进

原创 002、数学基石：线性代数、概率论与微积分在大模型中的应用

原创 001、AI大模型时代：从历史演进到核心概念总览

空空如也

空空如也