- 博客(63)
- 收藏
- 关注
原创 【清华代码熊】字节面试官:SFT、RL 在Agentic训练中的作用
📌 本期解析字节、淘天的面试题:🌟 如何理解 SFT、RL 在Agentic训练中的作用?🌟 工具调用本身 vs 基于工具结果的后续生成,哪个对 SFT 依赖更大?
2026-06-09 11:48:03
190
原创 【清华代码熊】面试官:Tool Response 需要 Loss Mask吗?
📌 今天解析智谱Agent算法面经:Tool Response 需要 Loss Mask吗?理由是什么?llamafactory 和 verl 里是怎么做的?
2026-06-05 00:47:14
181
原创 【清华代码熊】面试官:KL 散度放在 Loss / Reward 区别?
📌 今天解析字节/阿里面试题:KL 散度放在 loss 和放在 reward 中的区别、作用和适用场景?
2026-06-01 10:20:35
174
原创 【清华代码熊】面试官:Agent如何通过 SFT 训练?数据格式?
📌 今天解析一道面试题:Agent如何通过 SFT 训练?数据格式有什么要求?Agent SFT 和 Agent RL 训练数据是否能共用?
2026-05-28 09:39:17
191
原创 【清华代码熊】FIPO:用KL细化GRPO优势分配➡️长程推理
📌 今天来解析阿里Qwen对超长 Reasoning 的GRPO 改进:FIPO(Future-KL Influenced Policy Optimization)。
2026-05-26 10:22:32
15
原创 【清华代码熊】面试官: Agentic RL 过程奖励设计/优势计算
📌 今天解析阿里/字节/快手的面试题:Agentic RL 场景下如何设计过程奖励(Process Reward)?Token-Level 优势如何计算?
2026-05-22 16:24:32
25
原创 【清华代码熊】字节面试官:VLM图像 Token 冗余怎么解决?
📌 今天来解析字节、快手、爱奇艺都出现过的面试题:多模态图像 Token 冗余过多怎么解决?图像 Token 长度限制怎么实现?
2026-05-20 20:37:55
21
原创 【清华代码熊】面试官:DPO训练后为什么偏好更长输出?
📌 本期介绍米哈游DPO面试题三连问:DPO训练后为什么偏好更长输出?有什么问题?如何缓解?
2026-05-18 14:20:21
18
原创 【清华代码熊】字节面试官:大模型RL到底加不加KL散度约束?
📌 今天来解析面试题:如何根据RL任务调整KL散度?是否应该去掉KL?GRPO之后有哪些KL优化策略?
2026-05-16 09:44:28
16
原创 【清华代码熊】大模型 RL 强化学习面试题解析(26暑期实习)
📌 今天来解析26暑期实习面试中大模型强化学习 RL、Agentic RL、RL Agent 的高频考点考题。
2026-05-15 10:55:49
26
原创 【清华代码熊】MTP (Multi-Token Prediction)源码详解
📌 最近发布的大模型(多模态大模型)普遍都使用了 MTP (Multi-Token Prediction),包括 DeepSeek v4 / Qwen3-Next / Qwen3.5 / GLM-5 / Kimi K2.5 等。 📌 今天详细解析 MTP (Multi-Token Prediction)的发展路径、Meta 版本/ DeepSeek 版本的代码实现。
2026-05-13 10:30:32
197
原创 【清华代码熊】多模态|智谱GLM-5V-Turbo技术报告解析
📌 本期解析智谱GLM-5V-Turbo技术报告,关键点包括CogViT两阶段训练、多模态MTP、多任务联合RL的insights。
2026-05-09 22:30:45
72
原创 【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考
📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。
2026-05-07 23:24:49
60
原创 【清华代码熊】GVPO:Coding Agent RL 解决奖励错位问题
📌 今天来解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 训练 Coding Agent 存在奖励错位问题:🌟 早错晚对的trajectory被过度奖励。🌟 早对晚错的trajectory被全盘丢弃(0奖励)。 📌 GVPO 加入过程奖励,并且重新在 coding agent 的 trajectory 上分配奖励。
2026-05-04 11:43:29
239
原创 【清华代码熊】GLM 5.1 Infra:大规模Coding Agent推理优化
📌 今天来解读智谱 GLM 团队分享的《Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 at Scale》,主要分享了 GLM5.1 Coding Agent 服务优化中的技巧/Bug修复,全是 Infra 干货:🌟 KV Cache 损坏诊断技巧:投机采样指标 (spec_accept_length / spec_accept_rate) 拿来当 KV Cache 损坏的实时探针。🌟 两个 BugFix:1)
2026-04-30 18:28:31
73
原创 【清华代码熊】拆解DeepSeek V4训练:预训练+ OPD后训练
📌 今天来解析 DeepSeek V4训练流程,主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。
2026-04-30 11:27:10
67
原创 【清华代码熊】解析DeepSeek V4如何把KV Cahce压缩到10%?
📌 昨天解析了 DeepSeek V4 的架构,解释了 CSA+ HCA 为什么能在低 KV Cache 开销下实现 1M上下文🔥 🤔 但是 DeepSeek V4 技术报告中【相比上一代V3.2,KV Cache占用仅10%】是如何计算/估计的,今天带大家手把手计算,借此进一步理解V4架构(会算KV Cache量/参数量,架构自然懂)
2026-04-28 13:29:47
40
原创 【清华代码熊】DeepSeek V4架构/代码,一文带你读懂细节!
📌 为什么 DeepSeek V4 能够支持 1 M 上下文,并且保持低 FLOPs/KV Cache开销,答案就藏在模型架构上。 📌 今天带你从DeepSeek技术报告/源代码级别理解DeepSeek V4相比V3/V3.2的🔥技术细节改进!
2026-04-27 09:55:50
337
原创 【清华代码熊】Coding 测评 GLM 5.1、DeepSeek V4,选哪个?
📌 周五 DeepSeek V4 终于开源,在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后,不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样,和不久前支持超长程任务的 GLM5.1 比效果如何?终于今天博主在对比体验了2天之后,简单给大家分析一下。 📌 模型架构对比:🌟 GLM 5.1 使用的是 DSA(DeepSeek Sparse Attention)基于 MLA + Indexer 实现稀疏注意力,相比之前的 GLM 4 系列已经实现
2026-04-26 21:22:49
939
原创 【清华代码熊】每批数据只更新一次,还需要重要性采样吗?
📌 今天解析字节tiktok暑期实习面试三连问:🌟 重要性采样(Importance Sampling, IS)如何理解?🌟 如果每批数据只梯度更新一次,PPO 还需不需要重要性采样?🌟 on-policy 算法可以不用重要性采样吗?
2026-04-23 10:26:39
28
原创 【清华代码熊】面试官:Agent Memory了解哪些工作?
📌 今天来总结 Agent Memory 相关工作(2026年4月版)。包含实践中常见的知识库方案、原生记忆架构、Agentic RL工具即记忆方案。
2026-04-21 17:00:19
25
原创 【清华代码熊】面试官: RL训推不一致的原因 & 解决方案?
📌 今天解析大模型 RL 中的训推不一致的原因 & 解决方案。 📌 各厂在卷的 Reasoning & Agentic 大规模 RL 后训练都是训推分离式架构,不可避免必须解决训推不一致的原因,因此面试必须知道常见解决方案。
2026-04-17 10:57:37
247
原创 【清华代码熊】On-Policy (Self) Distillation 算法总结
📌 今天来总结最近比较常见的 On-Policy (Self) Distillation 系列算法发展脉络。
2026-04-13 10:11:32
222
原创 【清华代码熊】面试官:大模型Inference的性能指标有哪些?
📌 本期介绍大模型推理(Inference)的性能指标有哪些? 📌 对于Agent相关岗位,了解Inference Metrics对于选取不同供应商API/本地部署策略都有重要影响。
2026-04-10 10:43:21
164
原创 【清华代码熊】图解 Gemma 4 架构设计细节
📌 本期图解 Google 开源Gemma 4 架构设计细节,其中端侧模型的架构上有很多值得一看的设计。
2026-04-08 12:10:35
33
原创 【清华代码熊】RL后训练解析|Cursor Composer 2 技术报告
📌 今天来解析Cursor Composer 2 技术报告,期一度因为使用Kimi K2.5预训练基座饱受争议,但是其技术报告关注Coding Agent的RL训练,做这个方向🧭的还是值得一看。
2026-04-01 10:28:21
44
原创 【清华代码熊】Multi-Step Agentic RL 算法总结(2026.3版)
📌 本期是【大模型 RL 算法总结】的续篇,相比之前的单步RL,本期主要回顾多步 Agentic 任务的 RL 算法:GiGPO、Tree-GRPO、ARPO、AEPO、RAPO。
2026-03-27 09:45:06
217
原创 【清华代码熊】大模型Residuals架构对比:mHC/AttnRes/MoDA
📌 最近解析了三篇 Residuals 架构的工作:🌟 DeepSeek:mHC:Manifold-Constrained Hyper-Connections🌟 Kimi月之暗面:Attention Residuals🌟 字节跳动:Mixture-of-Depths Attention 🎯 今天来横向比较/总结这几个工作的异同。
2026-03-26 09:58:40
39
原创 【清华代码熊】如何理解GRPO公式的长度归一化项?
📌 今天来理解一个问题:大模型强化学习GRPO算法公式是否需要加长度归一化项?如何理解DeepSeek R1 和 DeepSeek Math 中GRPO公式的区别🤔。
2026-03-24 10:28:44
177
原创 【清华代码熊】字节Mixture-Of-Depths Attention论文解析
📌 撞车上次解析 Kimi 家的 Attention Residuals,本质都收用Attention在Depth上决定跨层连接强度,不过也有亮点:🌟从"Read-Operate-Write"统一视角分析不同Residuals工作的区别。🌟AttnRes 的 depth attention 和 sequence attention 完全分开,MoDA 合并成一个 attention。🌟 直接带来的效果,在reasoning benchmark的上限提高、同FLOPS下表现更好。
2026-03-23 12:13:01
26
原创 【清华代码熊】大模型面试题:从梯度理解LoRA初始化的原理
📌 今天解答一个同学的面试问题:LoRA初始化反过来,即A矩阵0初始化、B矩阵随机,是否可行?是否会有梯度消失? 📌 最好的理解方法就是从梯度角度理解,这样就能理解四种LoRA初始化方法带来的区别,四种组合:🌟A矩阵(0或随机) x B矩阵(0或随机)
2026-03-20 11:25:28
204
原创 【清华代码熊】RL Agentic Search综述总结|2026年3月
📌 今天总结几篇 RL-based Agentic Search 综述。 📌 不同综述的着重点不同:🌟 RL优化策略/多目标奖励设计。🌟 Multi-Agent架构。🌟 Reasoning Scaling策略。🌟 Workflow设计。
2026-03-19 19:07:57
29
原创 【清华代码熊】V4技术预览:DeepSeek mHC架构与代码解析
📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。 📌 今天来解析 mHC 的技术原理&社区代码实现。
2026-03-18 12:04:18
101
原创 【清华代码熊】解析|Kimi残差注意力Attention Residuals
📌 本期解析 Kimi 月之暗面的残差注意力架构Attention Residuals,RoPE作者苏剑林参与的工作。 🎯 Attention Residuals 核心改进:🌟 Attention 替代固定加权的残差连接。🌟 Block AttnRes 进一步减小内存和通信压力。
2026-03-17 12:18:37
403
原创 【清华代码熊】多模态OCR大模型架构对比|2026年3月版
📌 今天来总结一下之前解析的多模态大模型(OCR)的架构区别,包括:🌟 百度:PaddleOCR-VL、PaddleOCR-VL-1.5🌟 小红书:dots.ocr🌟 DeepSeek:DeepSeek OCR、OCR 2🌟腾讯:HunyuanOCR🌟 Shanghai AI Lab:MinerU2.5
2026-03-16 10:21:34
40
原创 【清华代码熊】RL Agent开源项目总结|2026年3月版
📌 项目方向分类:🧭🌟 Clip 策略精细化🌟 多模态 + RL Agent🌟 多 Agent RL 协作🌟 RL scaling law🌟Deep Search Agent
2026-03-12 11:52:22
169
原创 【清华代码熊】面试官:多模态大模型视觉Token压缩方法?
📌 本期解析面壁智能多模态大模型面试题:“多模态大模型缓解长序列计算瓶颈的方法?多模态大模型视觉Token压缩方法?”
2026-03-10 10:10:55
164
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅