基于策略的强化学习(四)：深度确定性策略梯度(DDPG)算法

最新推荐文章于 2024-05-09 19:58:14 发布

沐念丶

最新推荐文章于 2024-05-09 19:58:14 发布

阅读量2.2k

点赞数

分类专栏：强化学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZongXS/article/details/107043987

版权

强化学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

深度确定性策略梯度(DDPG)算法

深度确定性策略梯度算法是使用深度学习技术、同时基于 Actor—Critic 算法的确定性策略算法。该算法中的 Actor 和 Critic 都使用深度神经网络来建立近似函数。由于该算法可以直接从 Actor 的策略生成确定的行为而不需要依据行为的概率分布进行采样而被称为确定性策略。该算法在学习阶段通过在确定性的行为基础上增加一个噪声函数而实现在确定性行为周围的小范围内探索。此外，该算法还为 Actor 和 Critic 网络各备份了一套参数用来计算行为价值的期待值以更稳定地提升 Critic 的策略指导水平。使用备份参数的网络称为目标网络，其对应的参数每次更新的幅度很小。另一套参数对应的 Actor 和 Critic 则用来生成实际交互的行为以及计算相应的策略梯度，在一套参数每学习一次就更新一次。这种双参数设置的目的是为了减少因近似数据的引导而发生不收敛的情形。四个网络的具体使用情况为：在这里插入图片描述 DDPG算法变现出色，能较为稳定地解决连续行为空间下的强化学习问题，具体算法流程如下图所示：

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
基于策略的强化学习(四)：深度确定性策略梯度(DDPG)算法

深度确定性策略梯度(DDPG)算法深度确定性策略梯度算法是使用深度学习技术、同时基于 Actor—Critic 算法的确定性策略算法。该算法中的 Actor 和 Critic 都使用深度神经网络来建立近似函数。由于该算法可以直接从 Actor 的策略生成确定的行为而不需要依据行为的概率分布进行采样而被称为确定性策略。该算法在学习阶段通过在确定性的行为基础上增加一个噪声函数而实现在确定性行为周围的小范围内探索。此外，该算法还为 Actor 和 Critic 网络各备份了一套参数用来计算行为价值的期待值以更
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。