自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Leo_123Chen的博客

QS 10本硕,大厂算法人

  • 博客(9)
  • 收藏
  • 关注

原创 009、大模型推理与部署优化:量化、剪枝、KV缓存与服务框架

客户在等响应,运维在催工单,我对着监控面板苦笑:这大模型部署上线,真不是训练完扔个PyTorch脚本就能搞定的事。最好的优化方案往往是业务场景倒推出来的——先让服务跑起来,收集真实数据,再针对性地剪枝量化。我们有个项目用非结构化剪枝,理论上压缩70%,实际推理速度只提升15%——稀疏计算没硬件支持就是纸面数字。我们吃过亏——在A100上量化的模型放到T4上推理,精度掉得亲妈都不认。现在我们的技术栈:vLLM做基础服务,Triton部署稳定版本模型,自己写的中间件做业务逻辑封装。别把所有鸡蛋放一个篮子里。

2026-04-06 08:30:00

原创 008、指令微调与对齐:SFT、RLHF与DPO技术原理与实践

上周在部署一个企业内部问答模型时,遇到了典型问题:模型在通用测试集上表现优秀,但实际用户反馈“回答太官方,不解决实际问题”。比如用户问“报表导出慢怎么办”,模型照搬手册上的“检查网络和服务器负载”,而老员工都知道真实原因往往是某个特定数据库索引缺失。每次看到模型生成那句恰到好处的“这个问题需要查一下最新文档,我先给您临时方案”,就知道凌晨三点的调试值了。收集人类对多个模型回答的排序数据(如A比B好),训练一个奖励模型来打分。我们准备一批高质量的指令-回答对,让模型学习“人类想要什么样的回答”。

2026-04-05 21:32:37 136

原创 007、大模型高效训练技术:分布式训练、混合精度与梯度优化

这些技术迭代太快,今天的最佳实践明年可能就过时了。但核心思想不变——让计算更密集,让通信更高效,让数值更稳定。保持动手实验的习惯,别人的经验再丰富,也不如自己把显存跑炸一次来得深刻。

2026-04-02 14:00:00 3

原创 006、预训练范式革命:掩码语言建模与自回归语言建模

昨天在调试一个文本生成任务,模型在生成长文本时后半段开始胡言乱语。同事看了一眼说:“你这用的是自回归模型吧?试试掩码预训练的版本。” 一句话点醒了我——不同的预训练范式,在实际场景中的表现差异比想象中更大。

2026-04-02 09:39:06 8

原创 005、Transformer架构深度解析:编码器、解码器与自注意力

上周调一个多模态模型,输入序列长度刚到512,推理速度直接掉了一半。profile工具拉出来一看,70%的时间耗在attention计算上。同事凑过来看了一眼:“你这用的是原始的多头注意力吧?序列一长,这平方复杂度可扛不住。” 一句话点醒——是时候重新啃一遍Transformer的老底了。

2026-04-01 14:00:06 653

原创 004、语言模型核心:词嵌入、注意力机制与位置编码详解

上周在部署一个轻量化BERT模型时遇到个怪事:同一个句子,只是调换了两个词的顺序,模型输出的语义相似度居然相差了30%。去年优化一个检索模型时,我把注意力头的数量从12减到8,同时把每个头的维度从64提到96,总参数量不变,但效果提升了1.2个点。RNN天生有顺序概念,但Transformer是并行处理所有词的,必须显式告诉模型“哪个词在前,哪个词在后”。这就是位置编码的使命。今天我们就拆开语言模型的黑箱,看看词嵌入、注意力机制和位置编码这三个核心部件到底是怎么工作的,以及实际工程里有哪些容易踩坑的地方。

2026-04-01 11:56:48 159

原创 003、神经网络基础:从感知机到Transformer的架构演进

最后发现是网络第一层的权重更新量全是零——经典的梯度消失,在2024年还能遇到这种问题,让我不得不重新思考神经网络架构演进的根本逻辑。Transformer的并行性让它能充分利用GPU,但内存占用是O(n²),长序列直接爆显存——这就是为什么需要各种优化attention。感知机解决不了异或(表达能力不足),MLP有梯度消失(训练效率低),RNN无法并行(计算效率低),Transformer三者平衡得最好,但代价是内存占用大。神经网络发展就像盖楼,每代架构都在解决前代的问题,同时引入新的挑战。

2026-03-31 10:53:22 186

原创 002、数学基石:线性代数、概率论与微积分在大模型中的应用

最后盯着权重矩阵的奇异值分布图看了半小时,发现随着训练进行,某个注意力层的权重矩阵条件数急剧增大——线性代数里最基础的“病态矩阵”问题,在超大规模模型里用最戏剧化的方式给了我当头一棒。从数学看,它让学习率η(t)的导数dη/dt在初期变化慢,中期加速下降,末期又变慢。那些公式不是用来考试的,是用来救火的——当凌晨三点loss曲线突然失控时,能帮你最快找到火源的那个工具,往往是你最熟悉的数学定理。这就是数学的“幽灵”:你以为懂了的那些公式,总会在系统最复杂的时候跳出来,用实际代价让你真正理解它们。

2026-03-31 10:47:46 256

原创 001、AI大模型时代:从历史演进到核心概念总览

模型在验证集上的表现突然开始震荡,训练了三天的大模型突然开始“胡言乱语”。我见过有团队把batch size设得太大,导致梯度更新方向“平均化”,模型收敛到平庸的局部最优。当模型超过某个规模阈值(大概在百亿参数级别),会出现一些在小模型上看不到的能力。2012年AlexNet在ImageNet上夺冠时,大家关注的是GPU加速,但更关键的是ReLU激活函数解决了深层网络的梯度消失问题——这是深度网络能“深”下去的前提。有一次我们的模型在头一天就达到了很低的损失值,结果后续微调怎么都没效果。

2026-03-30 21:12:46 328

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除