DeepSeek用到的GRPO算法究竟是什么？

最新推荐文章于 2025-05-04 22:46:35 发布

老A的AI实验室

最新推荐文章于 2025-05-04 22:46:35 发布

阅读量812

点赞数 21

分类专栏： # 【LLM】文章标签：算法人工智能深度学习 LLM agi 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/acelit/article/details/145470554

版权

【LLM】专栏收录该内容

52 篇文章

订阅专栏

下面用通俗易懂的语言来讲解GRPO算法。

1. GRPO 是什么？

GRPO 是一种用于训练大语言模型（比如 ChatGPT 这类 AI）的强化学习算法。它的核心目标是通过“组内比较”的方式，让模型学会生成更优秀的回答，而无需依赖复杂的额外模型来评判好坏。

举个例子：

假设你是一个学生，老师布置了一道数学题。传统方法下，老师会直接批改你的答案，告诉你哪里错了（类似传统强化学习中的“教练”角色）。而 GRPO 的做法是，老师让全班同学都做这道题，然后根据大家的表现排名，告诉你：“你的答案比班上 80% 的同学好，下次继续保持！”——这种通过组内比较来学习的方式，就是 GRPO 的核心。

2. GRPO 是怎么工作的？

GRPO 的训练过程可以拆解为四步，就像学生不断练习考试一样：

1、生成多个答案（采样）

模型收到一个问题（比如一道数学题），它会尝试生成多个不同的答案（比如 5 种解法）。这就像学生考试时先草稿纸上写几种可能的解法。

2、给答案打分（奖励评分）

对每个答案进行评分。评分规则可以是：

准确性：答案是否正确（数学题的最终答案对不对）；
语言：是否通顺、没有中英文混杂。
格式：是否按照要求写步骤（比如先写思考过程，再写答案）；

3、比较答案优劣（优势计算）

把全班（所有生成的答案）的分数算个平均分，然后看每个答案比平均分高多少或低多少。比如：

答案 A 得 90 分，全班平均 70 分 → 优势值 +20；
答案 B 得 60 分，全班平均 70 分 → 优势值 -10。

4、调整策略（优化模型）

模型会根据优势值调整自己的“习惯”：

优势值高的答案（比如答案 A）会被鼓励多生成；
优势值低的答案（比如答案 B）会被减少生成。

同时，模型不会突然改变太多（防止“偏科”），而是循序渐进地优化。

3. GRPO 和传统方法（比如 PPO）的区别

传统方法（如 PPO）需要一个额外的“教练模型”（Critic Model）来评估每个答案的好坏，就像考试时老师必须亲自批改每道题。而 GRPO 完全不需要这个“教练”，它通过组内比较就能自学成才。

优势：

省资源：少了“教练模型”，训练更快、更省钱（比如减少 40% 内存占用）；
更简单：直接比较答案，规则明确（比如数学题答案对错一目了然）；
更稳定：组内比较降低了随机性，训练过程更平稳。

4. GRPO 的实际效果

在 DeepSeek-R1-Zero 模型中，GRPO 让模型的数学解题能力从最初的 15.6% 正确率提升到了 71%。这相当于一个学生从班级倒数进步到前几名，而且全程靠自己和同学比较，不需要老师手把手教！

最后总结：GRPO 的核心理念

没有“教练”，也能进步：通过组内竞争和比较，模型自我优化。
简单高效：省去复杂评判环节，专注核心目标（比如答案正确性）。
适合推理任务：数学题、代码生成等需要逻辑的场景效果尤其显著。

就像学生通过不断做题、对比答案来提高成绩一样，GRPO 让 AI 在“自我反思”中变得更聪明！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

老A的AI实验室 给博主点一杯卡布奇诺

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。