强化学习公式推导(Actor-Critic)

PG算法是对整个马尔科夫链(也就是每个trajectory)进行期望计算,最终推导的得到的公式如下:
▽ θ R θ ‾ = E τ ∼ π θ ( τ ) { ∑ t = 1 T ▽ θ l o g [ π θ ( a t ∣ s t ) ] } ∗ { ∑ t = 1 T r ( s t , a t ) } (1) \tag{1} \triangledown_{\theta} \overline{R_\theta}= E_{\tau \sim \pi_{\theta}(\tau)}\{\sum_{t=1}^T \triangledown_{\theta}log[\pi_{\theta}(a_t|s_t)]\}*\{\sum_{t=1}^Tr(s_t,a_t)\} θRθ=Eτπθ(τ){ t=1Tθlog[πθ(atst)]}{ t=1Tr(st,at)}(1)
观察改式,可以看出,其实对于每个trajectory中的每个step更新的时候,评价每个step的好坏参考的是整个轨迹的总回报,但从实际现实来将,每个step的好坏只跟当前step后的回报有关,与当前step之前的回报式无关的,因此我们可以将上式修改为:
▽ θ R θ ‾ = E τ ∼ π θ ( τ ) { ∑ t = 1 T ▽ θ l o g [ π θ ( a t ∣ s t ) ] } ∗ { ∑ t ′ = t T r ( s t ′ , a t ′ ) } (2) \tag{2} \triangledown_{\theta} \overline{R_\theta}= E_{\tau \sim \pi_{\theta}(\tau)}\{\sum_{t=1}^T \triangledown_{\theta}log[\pi_{\theta}(a_t|s_t)]\}*\{\sum_{t'=t}^Tr(s_{t'},a_{t'})\} θRθ=Eτπθ(τ){ t=1Tθ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值