基础知识篇
DeepSeek-R1 和 DeepSeek-R1-Zero 的区别(通俗版) - 知乎
深搜索-ai/DeepSeek-R1-蒸馏-Qwen-1.5B ·拥抱脸
deepseek 冷启动数据、推理类与非推理类SFT数据详解 - 知乎
DeepSeek-R1技术笔记 (含图解和技术点介绍) #我艾的工作!
GRPO\PPO #以下我都强烈推荐看!
PPO & GRPO原理,小学生也能看懂!#入门的时候看的
Deepseek的RL算法GRPO解读 #正在看,发现很灵魂讲的!比如,他会穿插一些基本思考(如图所示),方便大部分DLer去学习RL的思维转型。
,Deepseek的RL算法GRPO解读 - 知乎#与上一篇一样,只不过这个是原文,vx-gzh的排版更舒服
一文搞懂DPO、PPO和GRPO;附代码理解 #算法狗 哥的工作
实战篇
中文复现Deepseek核心算法GRPO!代码开源+数学推导,超越传统强化学习
进阶篇
PPO
DAPO
#我自己的笔记
CPPO