【高级篇】了解 DeepSeek-R1 中的强化学习

置顶前网易架构师-高司机

已于 2025-03-07 17:27:55 修改

阅读量804

点赞数 6

分类专栏：深度学习+AI DeepSeek和AI工具从入门到精通文章标签： chatgpt DeepSeek

于 2025-02-11 09:34:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pbymw8iwm/article/details/145515157

版权

深度学习+AI 同时被 2 个专栏收录

81 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

DeepSeek和AI工具从入门到精通

21 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

目录

什么是强化学习以及它如何在LLM中应用？

PPO 及其局限性

PPO 的工作原理：

PPO 的局限性：

GRPO：数学推理的更好替代方案

GRPO：数学推理的更好替代方案

GRPO 的工作原理：

GRPO 的主要特点：

DeepSeek-R1：使用纯强化学习完成思考任务

介绍

强化学习 (RL) 在提升大型语言模型 (LLM) 的推理能力方面发挥了关键作用。DeepSeek-R1 是一种最先进的推理模型，它证明了这一进步，展示了如何利用 RL 来改善人工智能中的逻辑思维和解决问题的能力。在本文中，我们将探索理解 DeepSeek-R1 所必需的 RL 基本方面，深入研究 RL 在 LLM 中的应用方式，分析近端策略优化 (PPO) 在先前模型中的作用，讨论其局限性，并解释为什么在 DeepSeekMath 中引入了组相对策略优化 (GRPO) 并随后应用于 DeepSeek-R1。

什么是强化学

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。