Policy Gradient算法

最新推荐文章于 2024-04-16 15:25:52 发布

Facico

最新推荐文章于 2024-04-16 15:25:52 发布

阅读量357

点赞数

分类专栏： AI 强化学习文章标签：强化学习算法

本文链接：https://blog.csdn.net/doyouseeman/article/details/108645676

版权

AI 同时被 2 个专栏收录

61 篇文章 3 订阅

订阅专栏

强化学习

4 篇文章 0 订阅

订阅专栏

Policy Gradient算法

数学理论

不像value-based的方法(Q learning, Sarsa)，与其不同的是他要输出的不是action的value，而是具体的那一个action，这样policy gradient就跳过了value这个阶段
- value-based输出的不是连续值，然后再选择最大的action
- policy gradient可以在一个连续分布上选取action
这个方法在方反向传播的时候是没有误差的，不过它确实在做一种反向传播
- 但是这个反向传播的目的是让这一次被选中的行为在下一次更有可能发生

(一下的 $\pi(s,a)和\pi(a|s)$ 一个道理，可以直接计算)

J表示当前单步MDP的状态的最优值，R表示这一动作的奖励

$J(\theta)=E_{\pi}[R(s,a)]\\ 按照之前那个贝尔曼方程展开\\ =\sum_{s}d(s)\sum_{a}\pi_{\theta}(s,a)R(s,a)\qquad d(s)就是之前的P$

求梯度

$\nabla_{\theta}J(\theta)=\nabla_{\theta}\sum_{s}d(s)\sum_{a}\pi_{\theta}(s,a)R(s,a)\\ =\sum_{s}d(s)\sum_{a}\nabla_{\theta}\pi_{\theta}(s,a)R(s,a)$

然后我们想要得到概率 $\pi$ 的分布从而来采样，下面就有一个似然比的技巧(虽然不知道为什么叫似然比，但是这个就是一个积分技巧)

$\nabla_{\theta}\pi_{\theta}(s,a)=\pi_{\theta}(s,a)\frac{\nabla_{\theta}\pi_{\theta}(s,a)}{\pi_{\theta}(s,a)}=\pi_{\theta}(s,a)\nabla_{\theta}\log \pi_{\theta}(s,a)$

s上面的式子就把概率提出来了，所以有

$\nabla_{\theta}J(\theta)=\sum_{s}d(s)\sum_{a}\pi_{\theta}(s,a)\nabla_{\theta}\log \pi_{\theta}(s,a)R(s,a)\\= E_{(s,a)\sim \pi_{\theta}(s,a)}[\nabla_{\theta}\log \pi_{\theta}(s,a)R(s,a)]$