梳理确定性策略梯度,随机策略梯度,AC,DPG,DDPG之间的联系

本文介绍了随机策略和确定性策略的概念及其梯度公式,探讨了AC算法在确定性策略中的应用,即DPG算法。进一步讲解了深度确定性策略梯度(DDPG)如何结合深度学习,以及为解决数据相关性问题所采用的经验回放和独立目标网络技术。
摘要由CSDN通过智能技术生成

1、随机策略

1.1  随机策略公式为:

\[ \pi_{\theta}\left(a|s\right)=P\left[a|s;\theta\right] \]

这里的P是一个概率函数,就是说,在给定状态和参数的情况下,输出的的动作服从一个概率分布,也就意味着每次走进这个状态的时候,输出的动作可能不同。

1.2  随机策略梯度公式为:

 

\[ \nabla_{\theta}J\left(\pi_{\theta}\right)=E_{s\sim\rho^{\pi},a\sim\pi_{\theta}}\left[\nabla_{\theta}\log\pi_{\theta}\left(a|s\right)Q^{\pi}\left(s,a\right)\right] \]

表明,策略梯度公式是关于状态和动作的期望,在求期望时,需要对状态分布和动作分布进行求积分。这就要求在状态空间和动作空间采集大量的样本,这样求均值才能近似期望。

2、确定性策略

2.1  确定策略公式为:

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值