强化学习（PG）

胡萝拔贝贝

已于 2024-01-31 16:20:16 修改

阅读量323

点赞数 5

分类专栏：强化学习文章标签：深度学习

于 2024-01-30 17:56:13 首次发布

本文链接：https://blog.csdn.net/weixin_42209537/article/details/135927244

版权

强化学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

PG——策略梯度（Policy Gradient）

基于策略的强化学习，通过神经网络来输出预测的动作，相较于基于价值的强化学习，PG最大的优势在于可以在一个区间内挑选动作。也就适合连续动作。

用参数化概率分布 $\pi _{\theta }\left ( a|s \right )=P\left ( a|s;\theta \right )$ 代替基于价值函数的强化学习中的确定性策略 $\pi :s\rightarrow a$ ，在返回的动作概率列表中对不同的动作进行抽样选择。

如何评价网络的好坏？
基于价值函数的强化学习有一个目标Q网络，通过输入下一时刻的状态和动作可以获得目标Q，然后计算损失

要利用日度上升来寻找最优的梯度，首先就要找到一个可以优化的函数目标，最简单的优化目标就是初始状态收获的期望，但是有的问题是没有明确的初始状态的，那么优化目标可以定义为平均价值，或者是每一时间步的平均奖励。

最终目的是决策后获得最大的期望，可以根据最终的回报和决策轨迹的概率求出期望回报来代表作为一个轨迹的回报，根据回报的大小，可以对网络进行优化。

以策略梯度作为损失来优化神经网络

$\triangledown \bar{R}_{\theta }=\frac{1}{N}\sum_{n=1}^{N}R\left ( \tau ^{n} \right )\triangledown logp_{\theta }\left ( \tau ^{n} \right )=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}R\left ( \tau ^{n} \right )\triangledown log\pi _{\theta} \left ( a_{t}^{n}|s_{t}^{n} \right )$ （对 $\theta$ 的求导的梯度）

根据： $\triangledown f\left ( x \right )=f\left ( x \right )\triangledown logf\left ( x \right )$
最大化 $\bar{R}_{\theta }$ 就是最大化 $\frac{1}{N}\sum_{n=1}^{N}R\left ( \tau ^{n} \right )\log p_{\theta }\left ( \tau ^{n} \right )$ ，由于每个episode更新一下神经网络，所以前面的 $\frac{1}{N}\sum_{n=1}^{N}$ 可以省略，最后最大化的目标就是 $R\left ( \tau ^{n} \right )\log p_{\theta }\left ( \tau ^{n} \right )$

更新： $\theta \leftarrow \theta +\alpha \triangledown \bar{R}_{\theta }$

策略函数 $\pi _{\theta }\left ( s,a \right )$ 的设计：

最常用的策略函数是softmax策略函数，主要应用于离散空间中，softmax策略使用描述状态和行为的特征 $\phi \left ( s, a \right )$ 与参数 $\theta$ 的线性组合来权衡一个行为发生的几率：

$\pi _{\theta }\left ( s, a \right )=\frac{e^{\phi \left ( s, a \right )^{T_{\theta }}}}{\sum_{b}^{}e^{\phi \left ( s, b\right )T_{\theta }}}$

求导： $\triangledown _{\theta }log\pi _{\theta }\left ( s, a \right )=\phi \left ( s, a \right )-E_{\pi _{\theta }}\left [ \phi \left (s,. \right ) \right ]$

另一种是高斯策略，是应用于连续空间的，求导后为： $\triangledown _{\theta }log\pi _{\theta }\left ( s, a \right )=\frac{\left ( a-\phi \left ( s \right )^{T_{\theta }} \right )\phi \left ( s \right )}{\sigma ^{2}}$

策略梯度的采样方式：①MC蒙特卡洛；②TD时序差分

MC蒙特卡洛： $\triangledown \bar{R}_{\theta }=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}G_{t}^{n}\triangledown log\pi _{\theta} \left ( a_{t}^{n}|s_{t}^{n} \right )$ ，在每个回合结束后去更新参数——Reinforce

PG利用带有权重的梯度上升方法更新策略，在Reinforce算法中，权重是有蒙特卡洛方法来计算未来总体回报，会带来待优化的策略参数 $\theta$ 只能在与环境交互完成一个epsiode后，才能进行更新，这种更新方式方差大，学习效率低。

为了提高PG的性能，通常会让未来回报 $G_{t}$ 减去一个baseline，使得权重部分有正有负，如果为正，增加该动作的概率，反之减小概率。

$\triangledown \bar{R}_{\theta }=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}\left ( \sum_{t^{'=t}}^{T_{n}}\gamma ^{t^{'}-t}r_{t^{'}}^{n}-b \right )\triangledown log\pi _{\theta} \left ( a_{t}^{n}|s_{t}^{n} \right )$

TD时序差分： $\triangledown \bar{R}_{\theta }=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=1}^{T_{n}}Q^{n}\left ( s_{t}^{n}, a_{t}^{n} \right )\triangledown log\pi _{\theta} \left ( a_{t}^{n}|s_{t}^{n} \right )$ ，在每一个step后更新参数，更新的频率高于MC蒙卡洛——actor-critic

胡萝拔贝贝

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习（PG）

要利用日度上升来寻找最优的梯度，首先就要找到一个可以优化的函数目标，最简单的优化目标就是初始状态收获的期望，但是有的问题是没有明确的初始状态的，那么优化目标可以定义为。最终目的是决策后获得最大的期望，可以根据最终的回报和决策轨迹的概率求出期望回报来代表作为一个轨迹的回报，根据回报的大小，可以对网络进行优化。基于策略的强化学习，通过神经网络来输出预测的动作，相较于基于价值的强化学习，PG最大的优势在于可以在一个区间内挑选动作。，在每一个step后更新参数，更新的频率高于MC蒙卡洛——
复制链接

扫一扫