梳理确定性策略梯度，随机策略梯度，AC，DPG，DDPG之间的联系

最新推荐文章于 2024-08-07 06:30:00 发布

Demian_Neit

最新推荐文章于 2024-08-07 06:30:00 发布

阅读量8.9k

点赞数 9

分类专栏：日记文章标签： DDPG 随机梯度策略确定性梯度策略 DPG AC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hjw756517/article/details/83862664

版权

本文介绍了随机策略和确定性策略的概念及其梯度公式，探讨了AC算法在确定性策略中的应用，即DPG算法。进一步讲解了深度确定性策略梯度（DDPG）如何结合深度学习，以及为解决数据相关性问题所采用的经验回放和独立目标网络技术。

摘要由CSDN通过智能技术生成

1、随机策略

1.1 随机策略公式为：

$\pi_{\theta}\left(a|s\right)=P\left[a|s;\theta\right]$

这里的P是一个概率函数，就是说，在给定状态和参数的情况下，输出的的动作服从一个概率分布，也就意味着每次走进这个状态的时候，输出的动作可能不同。

1.2 随机策略梯度公式为：

$\nabla_{\theta}J\left(\pi_{\theta}\right)=E_{s\sim\rho^{\pi},a\sim\pi_{\theta}}\left[\nabla_{\theta}\log\pi_{\theta}\left(a|s\right)Q^{\pi}\left(s,a\right)\right]$

表明，策略梯度公式是关于状态和动作的期望，在求期望时，需要对状态分布和动作分布进行求积分。这就要求在状态空间和动作空间采集大量的样本，这样求均值才能近似期望。

2、确定性策略

2.1 确定策略公式为：

最低0.47元/天解锁文章

关注

9
点赞
踩
49

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。