古希腊掌管代码的神THU-CSDN博客

原创【清华代码熊】On-Policy Distillation 正向/反向KL区别？

📌 本期解析秋招提前批面试题：On-Policy Distillation 算法中正向KL / 反向KL区别？sampled-token OPD / Full-vocabulary OPD的区别？

2026-07-27 23:40:08 153

原创【清华代码熊】On-Policy Distillation 使用 RL 框架实现？

📌 为什么 MiMo-V2-Flash（MOPD）和 GLM-5 通过替换 GRPO 训练框架中的优势项可以实现 OPD。

2026-07-24 02:31:26 10

原创【清华代码熊】PPO优化算法为什么clip后仍然需要min操作？

📌 今天解析秋招提前批面试题：为什么PPO优化算法中clip之后仍然需要min操作？

2026-07-23 04:05:49 148

原创【清华代码熊】总结｜DeepSeek-V4 后训练算法、架构、Infra

📌 今天汇总一下 DeepSeek-V4 后训练算法、模型架构、Infra 相关技术。

2026-07-20 15:28:46 223

原创【清华代码熊】总结｜GLM-5.2 后训练算法、模型架构、Infra

📌 今天汇总一下 GLM-5.2 后训练算法、模型架构、Infra 相关技术。

2026-07-16 12:21:22 151

原创【清华代码熊】项目实践17: RFT 冷启动 RL Agent 训练

📌 我们在项目实践：多模态 RL Agent（DAPO算法 & VeRL框架 & Think with images）里用 DAPO 做的在线 RL：每一步先 rollout、再用 reward 过滤更新。对一个 Instruct 模型来说，初始策略在工具协议下产出可验证答案的概率很低，这会导致：🌟 初期一个 prompt 采样 n 个回答几乎全是 0 reward，DAPO 的动态采样会反复重采、效率低。🌟 模型把算力花在学格式而不是学工具/推理上。冷启动的目标，就是给 RL 一个起始就 r

2026-07-14 17:48:20 180

原创【清华代码熊】两篇论文看GLM5.2后训练:SAO、CompactionRL

📌 本期解析最近一周智谱&清华的两篇涉及GLM5.2后训练的论文 SAO、CompactionRL。 ↩️ 相比我们之前的理论分析帖子《GLM-5.2 Agentic RL 训练策略拆解：从 GRPO 回到 critic-based PPO》，现在从更官方的角度解析 GLM-5.2 后训练。

2026-07-13 21:52:47 201

原创【清华代码熊】Qwen/GLM/DeepSeek等基座模型 OPD 技术总结

📌 今天主题：回顾Qwen/Mimo/GLM/DeepSeek各家基座模型中的 On-Policy Distillation（OPD）技术。

2026-07-10 18:28:54 179

原创【清华代码熊】Agentic RL 开源项目推荐（2026.07版）

📌 本期带来2026年上半年的 Agentic RL 开源项目推荐（简历项目可以基于此实现）筛选了几个方向：🌟 奖励建模改进（Reward Modeling）🌟 上下文压缩与管理（Context Compression）🌟 算法改进（RL Optimization）🌟 探索与数据供给（RL Training Data）

2026-07-06 09:29:14 196

原创【清华代码熊】解析｜DeepSeek DSpark 技术细节 & 代码解读

📌 本期解析最近 DeepSeek 的 Infra 推测解码工作 DSpark，直接用用 DeepSeek 家目前的基座模型 DeepSeek-V4-Pro-DSpark。

2026-07-02 21:42:47 240

原创【清华代码熊】Agent Harness工程实践（3）：Agent验证/测评

📌 今天继续讲 Agent Harness 系列，关注 Agent 测评/验证，通过 SweBench、Terminal-Bench、Tau-Bench 拆解工业界 Agent 测评要点。

2026-06-29 22:24:15 189

原创【清华代码熊】GLM-5.2 使用的interleaved RoPE 原理详解

📌 GLM-5.2 的主分支注意力改用 DeepSeek 风格的 interleaved RoPE，indexer 仍然用非交错的 half-split RoPE（GLM-5 主分支注意力的实现）。 🎯 今天来解析 interleaved RoPE 相对 half-split RoPE 的区别。

2026-06-27 02:01:44 253

原创【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO？

📌 今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑，结合我们前段时间解析过的🔥 Agentic-RL 算法总结与 🔥 OPD 算法总结。

2026-06-25 21:21:23 242

原创【清华代码熊】GLM-5.2 架构源码解析：从 DSA 到IndexShare

📌 本期解析 GLM-5.2架构细节/源代码：🌟 Interleaved RoPE🌟 IndexCache🌟 IndexShare🌟 MTP Index Share🌟 MTP Reject Sampling / TV Loss

2026-06-24 23:54:52 28

原创【清华代码熊】Agent Harness 工程实践之（2）：ToolUse设计

【清华代码熊】Agent Harness 工程实践之（2）：ToolUse设计

2026-06-17 16:13:16 233

原创【清华代码熊】字节面试官：RLVR 本质是一种 SFT？为什么？

📌 今天解析字节/百度面试题：RLVR（RL with Verifiable Reward）能否认为是一种 SFT？

2026-06-16 10:44:43 188

原创解析 MiniMax M3 多模态大模型的架构/源码？

📌 本期解析 MiniMax M3 多模态大模型的架构/源码。并且回顾 MiniMax 从 01 到 M3 的发展路线。

2026-06-15 22:34:32 184

原创【清华代码熊】Agent Harness 工程实践之（1）： Context管理

📌 Agent Harness 作为 2026 年上半年 Agent 技术代名词，在讲到具体方法论的时候却又“说不清”。 🔥 这个系列会通过解析 Claude Code / DeepAgents / OpenHands 等框架，通过“了解Harness 工业做法” 学习 Harness。

2026-06-11 15:30:37 245

原创【清华代码熊】字节面试官：SFT、RL 在Agentic训练中的作用

📌 本期解析字节、淘天的面试题：🌟 如何理解 SFT、RL 在Agentic训练中的作用？🌟 工具调用本身 vs 基于工具结果的后续生成，哪个对 SFT 依赖更大？

2026-06-09 11:48:03 212

原创【清华代码熊】面试官：Tool Response 需要 Loss Mask吗？

📌 今天解析智谱Agent算法面经：Tool Response 需要 Loss Mask吗？理由是什么？llamafactory 和 verl 里是怎么做的？

2026-06-05 00:47:14 188

原创【清华代码熊】面试官：KL 散度放在 Loss / Reward 区别？

📌 今天解析字节/阿里面试题：KL 散度放在 loss 和放在 reward 中的区别、作用和适用场景？

2026-06-01 10:20:35 181

原创【清华代码熊】面试官：Agent如何通过 SFT 训练？数据格式？

📌 今天解析一道面试题：Agent如何通过 SFT 训练？数据格式有什么要求？Agent SFT 和 Agent RL 训练数据是否能共用？

2026-05-28 09:39:17 197

原创【清华代码熊】FIPO：用KL细化GRPO优势分配➡️长程推理

📌 今天来解析阿里Qwen对超长 Reasoning 的GRPO 改进：FIPO（Future-KL Influenced Policy Optimization）。

2026-05-26 10:22:32 19

原创【清华代码熊】面试官: Agentic RL 过程奖励设计/优势计算

📌 今天解析阿里/字节/快手的面试题：Agentic RL 场景下如何设计过程奖励（Process Reward）？Token-Level 优势如何计算？

2026-05-22 16:24:32 35

原创【清华代码熊】字节面试官：VLM图像 Token 冗余怎么解决？

📌 今天来解析字节、快手、爱奇艺都出现过的面试题：多模态图像 Token 冗余过多怎么解决？图像 Token 长度限制怎么实现？

2026-05-20 20:37:55 25

原创【清华代码熊】面试官：DPO训练后为什么偏好更长输出？

📌 本期介绍米哈游DPO面试题三连问：DPO训练后为什么偏好更长输出？有什么问题？如何缓解？

2026-05-18 14:20:21 23

原创【清华代码熊】字节面试官：大模型RL到底加不加KL散度约束？

📌 今天来解析面试题：如何根据RL任务调整KL散度？是否应该去掉KL？GRPO之后有哪些KL优化策略？

2026-05-16 09:44:28 19

原创【清华代码熊】大模型 RL 强化学习面试题解析（26暑期实习）

📌 今天来解析26暑期实习面试中大模型强化学习 RL、Agentic RL、RL Agent 的高频考点考题。

2026-05-15 10:55:49 33

原创【清华代码熊】MTP （Multi-Token Prediction）源码详解

📌 最近发布的大模型（多模态大模型）普遍都使用了 MTP （Multi-Token Prediction），包括 DeepSeek v4 / Qwen3-Next / Qwen3.5 / GLM-5 / Kimi K2.5 等。 📌 今天详细解析 MTP （Multi-Token Prediction）的发展路径、Meta 版本/ DeepSeek 版本的代码实现。

2026-05-13 10:30:32 216

原创【清华代码熊】多模态｜智谱GLM-5V-Turbo技术报告解析

📌 本期解析智谱GLM-5V-Turbo技术报告，关键点包括CogViT两阶段训练、多模态MTP、多任务联合RL的insights。

2026-05-09 22:30:45 91

原创【清华代码熊】DeepSeek V4多模态技术解析：以视觉基元思考

📌 今天解析DeepSeek开源又紧急撤回的论文：《Thinking with Visual Primitives》，在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。

2026-05-07 23:24:49 79

原创【清华代码熊】GVPO：Coding Agent RL 解决奖励错位问题

📌 今天来解析 GVPO（Group Verification-based Policy Optimization），使用 GRPO 训练 Coding Agent 存在奖励错位问题：🌟 早错晚对的trajectory被过度奖励。🌟 早对晚错的trajectory被全盘丢弃（0奖励）。 📌 GVPO 加入过程奖励，并且重新在 coding agent 的 trajectory 上分配奖励。

2026-05-04 11:43:29 250

原创【清华代码熊】GLM 5.1 Infra：大规模Coding Agent推理优化

📌 今天来解读智谱 GLM 团队分享的《Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 at Scale》，主要分享了 GLM5.1 Coding Agent 服务优化中的技巧/Bug修复，全是 Infra 干货：🌟 KV Cache 损坏诊断技巧：投机采样指标 (spec_accept_length / spec_accept_rate) 拿来当 KV Cache 损坏的实时探针。🌟 两个 BugFix：1）

2026-04-30 18:28:31 99

原创【清华代码熊】拆解DeepSeek V4训练：预训练+ OPD后训练

📌 今天来解析 DeepSeek V4训练流程，主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

2026-04-30 11:27:10 84

原创【清华代码熊】解析DeepSeek V4如何把KV Cahce压缩到10%？

📌 昨天解析了 DeepSeek V4 的架构，解释了 CSA+ HCA 为什么能在低 KV Cache 开销下实现 1M上下文🔥 🤔 但是 DeepSeek V4 技术报告中【相比上一代V3.2，KV Cache占用仅10%】是如何计算/估计的，今天带大家手把手计算，借此进一步理解V4架构（会算KV Cache量/参数量，架构自然懂）

2026-04-28 13:29:47 46

原创【清华代码熊】DeepSeek V4架构/代码，一文带你读懂细节！

📌 为什么 DeepSeek V4 能够支持 1 M 上下文，并且保持低 FLOPs/KV Cache开销，答案就藏在模型架构上。 📌 今天带你从DeepSeek技术报告/源代码级别理解DeepSeek V4相比V3/V3.2的🔥技术细节改进！

2026-04-27 09:55:50 351

原创【清华代码熊】Coding 测评 GLM 5.1、DeepSeek V4，选哪个？

📌 周五 DeepSeek V4 终于开源，在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后，不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样，和不久前支持超长程任务的 GLM5.1 比效果如何？终于今天博主在对比体验了2天之后，简单给大家分析一下。 📌 模型架构对比：🌟 GLM 5.1 使用的是 DSA（DeepSeek Sparse Attention）基于 MLA + Indexer 实现稀疏注意力，相比之前的 GLM 4 系列已经实现

2026-04-26 21:22:49 1504

原创【清华代码熊】每批数据只更新一次，还需要重要性采样吗？

📌 今天解析字节tiktok暑期实习面试三连问：🌟 重要性采样（Importance Sampling, IS）如何理解？🌟 如果每批数据只梯度更新一次，PPO 还需不需要重要性采样？🌟 on-policy 算法可以不用重要性采样吗？

2026-04-23 10:26:39 32

原创【清华代码熊】面试官：Agent Memory了解哪些工作？

📌 今天来总结 Agent Memory 相关工作（2026年4月版）。包含实践中常见的知识库方案、原生记忆架构、Agentic RL工具即记忆方案。

2026-04-21 17:00:19 32

原创【清华代码熊】面试官： RL训推不一致的原因 & 解决方案？

📌 今天解析大模型 RL 中的训推不一致的原因 & 解决方案。 📌 各厂在卷的 Reasoning & Agentic 大规模 RL 后训练都是训推分离式架构，不可避免必须解决训推不一致的原因，因此面试必须知道常见解决方案。

2026-04-17 10:57:37 273

空空如也

空空如也