自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 【清华代码熊】字节面试官:SFT、RL 在Agentic训练中的作用

📌 本期解析字节、淘天的面试题:🌟 如何理解 SFT、RL 在Agentic训练中的作用?🌟 工具调用本身 vs 基于工具结果的后续生成,哪个对 SFT 依赖更大?

2026-06-09 11:48:03 190

原创 【清华代码熊】面试官:Tool Response 需要 Loss Mask吗?

📌 今天解析智谱Agent算法面经:Tool Response 需要 Loss Mask吗?理由是什么?llamafactory 和 verl 里是怎么做的?

2026-06-05 00:47:14 181

原创 【清华代码熊】面试官:KL 散度放在 Loss / Reward 区别?

📌 今天解析字节/阿里面试题:KL 散度放在 loss 和放在 reward 中的区别、作用和适用场景?

2026-06-01 10:20:35 174

原创 【清华代码熊】面试官:Agent如何通过 SFT 训练?数据格式?

📌 今天解析一道面试题:Agent如何通过 SFT 训练?数据格式有什么要求?Agent SFT 和 Agent RL 训练数据是否能共用?

2026-05-28 09:39:17 191

原创 【清华代码熊】FIPO:用KL细化GRPO优势分配➡️长程推理

📌 今天来解析阿里Qwen对超长 Reasoning 的GRPO 改进:FIPO(Future-KL Influenced Policy Optimization)。

2026-05-26 10:22:32 15

原创 【清华代码熊】面试官: Agentic RL 过程奖励设计/优势计算

📌 今天解析阿里/字节/快手的面试题:Agentic RL 场景下如何设计过程奖励(Process Reward)?Token-Level 优势如何计算?

2026-05-22 16:24:32 25

原创 【清华代码熊】字节面试官:VLM图像 Token 冗余怎么解决?

📌 今天来解析字节、快手、爱奇艺都出现过的面试题:多模态图像 Token 冗余过多怎么解决?图像 Token 长度限制怎么实现?

2026-05-20 20:37:55 21

原创 【清华代码熊】面试官:DPO训练后为什么偏好更长输出?

📌 本期介绍米哈游DPO面试题三连问:DPO训练后为什么偏好更长输出?有什么问题?如何缓解?

2026-05-18 14:20:21 18

原创 【清华代码熊】字节面试官:大模型RL到底加不加KL散度约束?

📌 今天来解析面试题:如何根据RL任务调整KL散度?是否应该去掉KL?GRPO之后有哪些KL优化策略?

2026-05-16 09:44:28 16

原创 【清华代码熊】大模型 RL 强化学习面试题解析(26暑期实习)

📌 今天来解析26暑期实习面试中大模型强化学习 RL、Agentic RL、RL Agent 的高频考点考题。

2026-05-15 10:55:49 26

原创 【清华代码熊】MTP (Multi-Token Prediction)源码详解

📌 最近发布的大模型(多模态大模型)普遍都使用了 MTP (Multi-Token Prediction),包括 DeepSeek v4 / Qwen3-Next / Qwen3.5 / GLM-5 / Kimi K2.5 等。 📌 今天详细解析 MTP (Multi-Token Prediction)的发展路径、Meta 版本/ DeepSeek 版本的代码实现。

2026-05-13 10:30:32 197

原创 【清华代码熊】多模态|智谱GLM-5V-Turbo技术报告解析

📌 本期解析智谱GLM-5V-Turbo技术报告,关键点包括CogViT两阶段训练、多模态MTP、多任务联合RL的insights。

2026-05-09 22:30:45 72

原创 【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考

📌 今天解析DeepSeek开源又紧急撤回的论文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基础上构建多模态🔥推理模型。

2026-05-07 23:24:49 60

原创 【清华代码熊】GVPO:Coding Agent RL 解决奖励错位问题

📌 今天来解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 训练 Coding Agent 存在奖励错位问题:🌟 早错晚对的trajectory被过度奖励。🌟 早对晚错的trajectory被全盘丢弃(0奖励)。 📌 GVPO 加入过程奖励,并且重新在 coding agent 的 trajectory 上分配奖励。

2026-05-04 11:43:29 239

原创 【清华代码熊】GLM 5.1 Infra:大规模Coding Agent推理优化

📌 今天来解读智谱 GLM 团队分享的《Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 at Scale》,主要分享了 GLM5.1 Coding Agent 服务优化中的技巧/Bug修复,全是 Infra 干货:🌟 KV Cache 损坏诊断技巧:投机采样指标 (spec_accept_length / spec_accept_rate) 拿来当 KV Cache 损坏的实时探针。🌟 两个 BugFix:1)

2026-04-30 18:28:31 73

原创 【清华代码熊】拆解DeepSeek V4训练:预训练+ OPD后训练

📌 今天来解析 DeepSeek V4训练流程,主要关注预训练阶段与 V3/V3.2 的区别、1M长上下文拓展训练、后训练 On-Policy Distillation 实现。

2026-04-30 11:27:10 67

原创 【清华代码熊】解析DeepSeek V4如何把KV Cahce压缩到10%?

📌 昨天解析了 DeepSeek V4 的架构,解释了 CSA+ HCA 为什么能在低 KV Cache 开销下实现 1M上下文🔥 🤔 但是 DeepSeek V4 技术报告中【相比上一代V3.2,KV Cache占用仅10%】是如何计算/估计的,今天带大家手把手计算,借此进一步理解V4架构(会算KV Cache量/参数量,架构自然懂)

2026-04-28 13:29:47 40

原创 【清华代码熊】DeepSeek V4架构/代码,一文带你读懂细节!

📌 为什么 DeepSeek V4 能够支持 1 M 上下文,并且保持低 FLOPs/KV Cache开销,答案就藏在模型架构上。 📌 今天带你从DeepSeek技术报告/源代码级别理解DeepSeek V4相比V3/V3.2的🔥技术细节改进!

2026-04-27 09:55:50 337

原创 【清华代码熊】Coding 测评 GLM 5.1、DeepSeek V4,选哪个?

📌 周五 DeepSeek V4 终于开源,在做到了 1M 上下文 FLOPs / KVCache 的极限压缩之后,不少小伙伴问我在 Claude Code 里 DeepSeek V4 体验怎么样,和不久前支持超长程任务的 GLM5.1 比效果如何?终于今天博主在对比体验了2天之后,简单给大家分析一下。 📌 模型架构对比:🌟 GLM 5.1 使用的是 DSA(DeepSeek Sparse Attention)基于 MLA + Indexer 实现稀疏注意力,相比之前的 GLM 4 系列已经实现

2026-04-26 21:22:49 939

原创 【清华代码熊】每批数据只更新一次,还需要重要性采样吗?

📌 今天解析字节tiktok暑期实习面试三连问:🌟 重要性采样(Importance Sampling, IS)如何理解?🌟 如果每批数据只梯度更新一次,PPO 还需不需要重要性采样?🌟 on-policy 算法可以不用重要性采样吗?

2026-04-23 10:26:39 28

原创 【清华代码熊】面试官:Agent Memory了解哪些工作?

📌 今天来总结 Agent Memory 相关工作(2026年4月版)。包含实践中常见的知识库方案、原生记忆架构、Agentic RL工具即记忆方案。

2026-04-21 17:00:19 25

原创 【清华代码熊】面试官: RL训推不一致的原因 & 解决方案?

📌 今天解析大模型 RL 中的训推不一致的原因 & 解决方案。 📌 各厂在卷的 Reasoning & Agentic 大规模 RL 后训练都是训推分离式架构,不可避免必须解决训推不一致的原因,因此面试必须知道常见解决方案。

2026-04-17 10:57:37 247

原创 【清华代码熊】近半年 Agent 面试高频题 (26.04版)

📌 今天来分享近半年来的大模型Agent算法面试八股,逐步整理分享完善题单📑

2026-04-15 09:52:34 19

原创 【清华代码熊】On-Policy (Self) Distillation 算法总结

📌 今天来总结最近比较常见的 On-Policy (Self) Distillation 系列算法发展脉络。

2026-04-13 10:11:32 222

原创 【清华代码熊】面试官:大模型Inference的性能指标有哪些?

📌 本期介绍大模型推理(Inference)的性能指标有哪些? 📌 对于Agent相关岗位,了解Inference Metrics对于选取不同供应商API/本地部署策略都有重要影响。

2026-04-10 10:43:21 164

原创 【清华代码熊】图解 Gemma 4 架构设计细节

📌 本期图解 Google 开源Gemma 4 架构设计细节,其中端侧模型的架构上有很多值得一看的设计。

2026-04-08 12:10:35 33

原创 【清华代码熊】字节面试官:SFT训练到什么程度,才值得做RL?

📌 今天解析面试题:SFT训练到什么程度,才值得做RL?

2026-04-02 10:42:42 25

原创 【清华代码熊】RL后训练解析|Cursor Composer 2 技术报告

📌 今天来解析Cursor Composer 2 技术报告,期一度因为使用Kimi K2.5预训练基座饱受争议,但是其技术报告关注Coding Agent的RL训练,做这个方向🧭的还是值得一看。

2026-04-01 10:28:21 44

原创 【清华代码熊】Multi-Step Agentic RL 算法总结(2026.3版)

📌 本期是【大模型 RL 算法总结】的续篇,相比之前的单步RL,本期主要回顾多步 Agentic 任务的 RL 算法:GiGPO、Tree-GRPO、ARPO、AEPO、RAPO。

2026-03-27 09:45:06 217

原创 【清华代码熊】大模型Residuals架构对比:mHC/AttnRes/MoDA

📌 最近解析了三篇 Residuals 架构的工作:🌟 DeepSeek:mHC:Manifold-Constrained Hyper-Connections🌟 Kimi月之暗面:Attention Residuals🌟 字节跳动:Mixture-of-Depths Attention 🎯 今天来横向比较/总结这几个工作的异同。

2026-03-26 09:58:40 39

原创 【清华代码熊】面试官:如何缓解微调中的灾难性遗忘?

📌 今天解析字节面试题:如何缓解微调中的灾难性遗忘?

2026-03-25 10:02:45 20

原创 【清华代码熊】如何理解GRPO公式的长度归一化项?

📌 今天来理解一个问题:大模型强化学习GRPO算法公式是否需要加长度归一化项?如何理解DeepSeek R1 和 DeepSeek Math 中GRPO公式的区别🤔。

2026-03-24 10:28:44 177

原创 【清华代码熊】字节Mixture-Of-Depths Attention论文解析

📌 撞车上次解析 Kimi 家的 Attention Residuals,本质都收用Attention在Depth上决定跨层连接强度,不过也有亮点:🌟从"Read-Operate-Write"统一视角分析不同Residuals工作的区别。🌟AttnRes 的 depth attention 和 sequence attention 完全分开,MoDA 合并成一个 attention。🌟 直接带来的效果,在reasoning benchmark的上限提高、同FLOPS下表现更好。

2026-03-23 12:13:01 26

原创 【清华代码熊】大模型面试题:从梯度理解LoRA初始化的原理

📌 今天解答一个同学的面试问题:LoRA初始化反过来,即A矩阵0初始化、B矩阵随机,是否可行?是否会有梯度消失? 📌 最好的理解方法就是从梯度角度理解,这样就能理解四种LoRA初始化方法带来的区别,四种组合:🌟A矩阵(0或随机) x B矩阵(0或随机)

2026-03-20 11:25:28 204

原创 【清华代码熊】RL Agentic Search综述总结|2026年3月

📌 今天总结几篇 RL-based Agentic Search 综述。 📌 不同综述的着重点不同:🌟 RL优化策略/多目标奖励设计。🌟 Multi-Agent架构。🌟 Reasoning Scaling策略。🌟 Workflow设计。

2026-03-19 19:07:57 29

原创 【清华代码熊】V4技术预览:DeepSeek mHC架构与代码解析

📌 昨天解析了 Kimi 苏剑林的Attention Residuals这个工作,在之前 DeepSeek 也有一个关于 Transformer 残差的改进 mHC,而且与 Engram 可能都是 DeepSeek V4的架构基础。 📌 今天来解析 mHC 的技术原理&社区代码实现。

2026-03-18 12:04:18 101

原创 【清华代码熊】解析|Kimi残差注意力Attention Residuals

📌 本期解析 Kimi 月之暗面的残差注意力架构Attention Residuals,RoPE作者苏剑林参与的工作。 🎯 Attention Residuals 核心改进:🌟 Attention 替代固定加权的残差连接。🌟 Block AttnRes 进一步减小内存和通信压力。

2026-03-17 12:18:37 403

原创 【清华代码熊】多模态OCR大模型架构对比|2026年3月版

📌 今天来总结一下之前解析的多模态大模型(OCR)的架构区别,包括:🌟 百度:PaddleOCR-VL、PaddleOCR-VL-1.5🌟 小红书:dots.ocr🌟 DeepSeek:DeepSeek OCR、OCR 2🌟腾讯:HunyuanOCR🌟 Shanghai AI Lab:MinerU2.5

2026-03-16 10:21:34 40

原创 【清华代码熊】RL Agent开源项目总结|2026年3月版

📌 项目方向分类:🧭🌟 Clip 策略精细化🌟 多模态 + RL Agent🌟 多 Agent RL 协作🌟 RL scaling law🌟Deep Search Agent

2026-03-12 11:52:22 169

原创 【清华代码熊】面试官:多模态大模型视觉Token压缩方法?

📌 本期解析面壁智能多模态大模型面试题:“多模态大模型缓解长序列计算瓶颈的方法?多模态大模型视觉Token压缩方法?”

2026-03-10 10:10:55 164

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除