强化学习记录-DQN、PPO、DDPG、SAC对比

程序猿小菜鸡

已于 2024-05-07 10:32:52 修改

阅读量4k

点赞数 2

文章标签： python numpy pandas

于 2024-05-06 23:31:35 首次发布

原文链接：https://hrl.boyuai.com/chapter/2/ddpg%E7%AE%97%E6%B3%95

版权

Actor-Critic 和 PPO都是在线策略算法，这意味着它们的样本效率比较低。

DQN 算法直接估计最优函数 Q，可以做到离线策略学习，但是它只能处理动作空间有限的环境，这是因为它需要从所有动作中挑选一个值最大的动作。如果动作个数是无限的，虽然可以将动作空间离散化，但这比较粗糙，无法精细控制。

深度确定性策略梯度（DDPG）是用来处理动作空间无限的环境并且使用离线策略的算法。构造一个确定性策略，用梯度上升的方法来最大化Q值。

PPO 学习随机性策略，而DDPG 则学习一个确定性策略。

DDPG 是离线策略算法，但是它的训练非常不稳定，收敛性较差，对超参数比较敏感，也难以适应不同的复杂环境。一个更加稳定的离线策略算法 Soft Actor-Critic（SAC）被提出，属于最大熵强化学习的范畴。SAC学习一个随机性策略。

最大熵强化学习（maximum entropy RL）的思想就是除了要最大化累积奖励，还要使得策略更加随机。其中， $\alpha$ 是一个正则化的系数，用来控制熵的重要程度。熵正则化增加了强化学习算法的探索程度， $\alpha$ 越大，探索性就越强，有助于加速后续的策略学习，并减少策略陷入较差的局部最优的可能性。

SAC 算法原本是针对连续动作交互的环境提出的，但是SAC 也能处理与离散动作交互的环境，通过修改策略网络和价值网络的网络结构，得出SAC 可以在离散动作环境下平衡探索与利用的优秀性质。

程序猿小菜鸡

博客等级

码龄6年

14
原创

139
点赞

105
收藏

103
粉丝

关注

私信

热门文章

上一篇：: 强化学习记录-PPO

下一篇：: 强化学习记录-DDPG代码

最新评论

强化学习记录-DQN、PPO、DDPG、SAC对比
HandHe: 动手学强化学习，上交
强化学习记录-DQN、PPO、DDPG、SAC对比
Frank.475: 这是什么教材呀博主
虚拟机ubuntu火狐无法上网问题
MS123035: 成功了，成功了
虚拟机ubuntu火狐无法上网问题
少年起风了: 很棒一次就成功
强化学习记录-DQN
CSDN-Ada助手: 恭喜用户发布了第四篇博客《强化学习记录-DQN》，内容相信会对很多读者有所帮助。希望用户能够继续保持创作的热情和努力，可以尝试在下一篇博客中深入探讨DQN算法的应用场景和优化方法，让读者能够更加全面地了解这一内容。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。