PG算法是对整个马尔科夫链(也就是每个trajectory)进行期望计算,最终推导的得到的公式如下:
▽ θ R θ ‾ = E τ ∼ π θ ( τ ) { ∑ t = 1 T ▽ θ l o g [ π θ ( a t ∣ s t ) ] } ∗ { ∑ t = 1 T r ( s t , a t ) } (1) \tag{1} \triangledown_{\theta} \overline{R_\theta}= E_{\tau \sim \pi_{\theta}(\tau)}\{\sum_{t=1}^T \triangledown_{\theta}log[\pi_{\theta}(a_t|s_t)]\}*\{\sum_{t=1}^Tr(s_t,a_t)\} ▽θRθ=Eτ∼πθ(τ){
t=1∑T▽θlog[πθ(at∣st)]}∗{
t=1∑Tr(st,at)}(1)
观察改式,可以看出,其实对于每个trajectory中的每个step更新的时候,评价每个step的好坏参考的是整个轨迹的总回报,但从实际现实来将,每个step的好坏只跟当前step后的回报有关,与当前step之前的回报式无关的,因此我们可以将上式修改为:
▽ θ R θ ‾ = E τ ∼ π θ ( τ ) { ∑ t = 1 T ▽ θ l o g [ π θ ( a t ∣ s t ) ] } ∗ { ∑ t ′ = t T r ( s t ′ , a t ′ ) } (2) \tag{2} \triangledown_{\theta} \overline{R_\theta}= E_{\tau \sim \pi_{\theta}(\tau)}\{\sum_{t=1}^T \triangledown_{\theta}log[\pi_{\theta}(a_t|s_t)]\}*\{\sum_{t'=t}^Tr(s_{t'},a_{t'})\} ▽θRθ=Eτ∼πθ(τ){
t=1∑T▽θ
强化学习公式推导(Actor-Critic)
最新推荐文章于 2024-04-05 16:53:55 发布