强化学习基础知识笔记[7] - Policy Gradient

最新推荐文章于 2022-10-05 21:24:13 发布

AaronXueNF

最新推荐文章于 2022-10-05 21:24:13 发布

阅读量870

点赞数

分类专栏：强化学习笔记文章标签：机器学习强化学习

本文链接：https://blog.csdn.net/AaronXueNF/article/details/121310007

版权

强化学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

参考资料
[1] 强化学习进阶第六讲策略梯度方法
本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。

Value based 与 Policy based

Value based

值函数方法包括策略评估与策略改善两个步骤。最典型的为前面学习的DQN方法。

其优化目标为：

寻找最优θ，拟合值函数 $Q_{\theta}(s,a)$ （策略评估）；
在值函数基础上选择最佳策略 $argmax_a Q_{\theta}(s,a)$ (贪婪策略，策略改善)。

当值函数为最优时策略也是最优的。这种方法得到的策略为状态空间到有限集动作空间的映射。策略空间受限。

该方法需要迭代计算值函数，再根据值函数优化策略。

Policy based

策略方法时将策略参数化，建立 $\pi_{\theta}(s)$ ，利用参数化的线性函数或非线性函数表示策略。策略空间可以很大或者连续。

其优化目标为：寻找最优θ， $\ E\lbrack \sum_{t=0}^{N}R(s_t)|\pi_{\theta} \rbrack$

该方法直接迭代计算策略函数。

优缺点比较

Policy based与Value based相比优点有：

策略参数化简单，收敛性更好；
可以求解连续或者很大的动作空间；
采用随机策略，将探索直接集成到策略之中；

Policy based与Value based相比缺点有：

容易收敛到局部最小值；
评估单个策略并不充分，方差较大；

策略搜索方法

分类

本节笔记策略梯度方法中的内容。

策略梯度

用τ表示一组状态-行为序列： $s_0, u_0, \cdots , s_H, u_H$ ，该序列长度为H。

该序列回报为:
$R(\tau)=\sum_{t=0}^{H}R(s_t , u_t)$

轨迹τ出现概率记为： $P(\tau;\theta)$ ，θ为参数。

目标函数记为：
$U(\theta) = E(\sum_{t=0}^{H}R(s_t , u_t);\pi_{\theta}) = \sum_{\tau}P(\tau;\theta)R(\tau) \tag{1}$

强化学习目标为：
$max_{\theta} U(\theta) = max_{\theta} \sum_{\tau}P(\tau;\theta)R(\tau)$

求解该优化问题采用梯度下降法：
$\theta_{new} = \theta_{old} + \alpha \nabla_{\theta}U(\theta)$

经过推导，由m条已知的轨迹求解策略梯度公式为：
$\begin{aligned} \nabla_{\theta}U(\theta) & \approx \frac{1}{m}\sum_{i=0}^{m}\nabla_{\theta}logP(\tau;\theta)R(\tau) \\ & \approx \frac{1}{m}\sum_{i=1}^{m} \left( \sum_{t=0}^{H}\nabla_{\theta}log\pi_{\theta}(u_{t}^{(i)}|s_{t}^{(i)})R(\tau^{(i)}) \right) \end{aligned} \tag{2}$

其中：

$\nabla_{\theta}logP(\tau;\theta)$ 为轨迹τ下logP随参数θ变化最陡的方向，沿着该方向更新θ会增大选取轨迹τ的概率；
$R(\tau)$ 控制更新θ的程度，为正且越大则选择该轨迹的概率越大，反之亦然；
m为路径条数；H为每个路径状态数；
$\pi_{\theta}(u_{t}^{(i)}|s_{t}^{(i)})$ 为给定状态s下按参数为θ的策略选择u的概率，关于θ的函数；
$R(\tau^{(i)})$ 为第i条路径的累计回报；

小结：
策略梯度优化会增加高回报路径的概率，减小低回报路径的概率。
同时，策略 $\pi_{\theta}(u|s)$ 是一个以θ为参数，s为输入的函数，输出为各状态的选择概率！其参数更新方式为梯度下降，很自然想到使用神经网络进行方便的求解！只要给定多组轨迹，即可根据(2)更新参数。

(2)存在的问题：梯度是无偏的，但方差很大！
解决方法：引入常数基线b：

请添加图片描述

修改后的方法应用方式仍然不变：根据轨迹数据，带入公式进行计算求解。

采用神经网络的实现思路

这里假定动作空间是有限的。

神经网络设计

梯度策略算法中未修正方差的策略梯度为：
$\nabla_{\theta}U(\theta) \approx \frac{1}{m}\sum_{i=1}^{m} \left( \sum_{t=0}^{H}\nabla_{\theta}log\pi_{\theta}(u_{t}^{(i)}|s_{t}^{(i)})R(\tau^{(i)}) \right) \tag{3}$

其中策略 $\pi_{\theta}(u_{t}^{(i)}|s_{t}^{(i)})$ 使用神经网络实现，该网络输入为:状态s时的特征向量，输出为各个动作的概率分布，网络示意如下：

请添加图片描述

假定如下：

输入特征向量维数为6；
可用动作数量为4，输出还需经过softmax层处理!

经过softmax处理后，神经网络输出为在当前输入的特征向量下，选取各个动作的概率！

策略选择

在探索过程中，给定环境特征s下得到的是当前各个动作选择的概率，agent根据该概率随机选择动作。

训练方法

探索阶段
采用参数 $\theta_{old}$ 作为策略参数，在进行多个episode的探索获得多条样本轨迹，设第i条为： $s^{(i)}_0, u^{(i)}_0, r^{(i)}_0 \cdots , s^{(i)}_H, u^{(i)}_H, r^{(i)}_H$

优化阶段
定义损失函数：
$-\int p_{old}logq_{\pi_{\theta}}Q(s,a) \tag{4}$

其中：

$-\int p_{old}logq_{\pi_{\theta}}$ 为实际动作选择分布与策略概率分布的交叉熵；
- $p_{old}$ 为实际选择的动作，如[0 0 1];
- $q_{\pi_{\theta}}$ 为当前状态s下预测各动作的概率，如[0.1 0.5 0.4]
$Q (s, a)$ 为当前状态s下实际采取动作a后的累计回报函数；

利用该损失函数，即可对神经网络应用反向传播计算参数梯度并更新参数。

AaronXueNF

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习基础知识笔记[7] - Policy Gradient

参考资料[1] 强化学习进阶第六讲策略梯度方法本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。Value based 与 Policy basedValue based值函数方法包括策略评估与策略改善两个步骤。最典型的为前面学习的DQN方法。其优化目标为：寻找最优θ，拟合值函数Qθ(s,a)Q_{\theta}(s,a)Qθ(s,a)（策略评估）；在值函数基础上选择最佳策略argmaxaQθ(s,a)argmax_a Q_{\theta}(s,a)argma
复制链接

扫一扫

专栏目录