基础算法篇（五），Policy Based方法解决强化学习问题

最新推荐文章于 2022-04-29 10:49:39 发布

samurasun

最新推荐文章于 2022-04-29 10:49:39 发布

阅读量1.5k

点赞数 1

分类专栏：强化学习笔记文章标签：强化学习人工智能

本文链接：https://blog.csdn.net/samurasun/article/details/108202834

版权

强化学习笔记专栏收录该内容

15 篇文章 31 订阅

订阅专栏

我们前面几章介绍的方法中，无论是动态规划（DP）、蒙特卡洛（MC）、时序差分（TD）、或者值函数逼近方法（DQN、Double DQN、Dueling DQN、Prioritized Replay DQN）等，都是先计算出状态价值或状态-行为值，然后再用贪婪法等选择“行为”，这些方法统称为Value Based的方法。
那么，有没有办法直接去求出行为呢？下面，我们就带大家进入Policy Based方法的大家庭。

基本思路

首先，让我们先回顾一下强化学习的基本过程：
在这里插入图片描述
在强化学习基本概念小结中我们讲过，可以将一次完整的强化学习过程描述为一个MDP（马尔科夫决策过程），其中每一步都由 $\left(s_i,a_i,s_{i+1}\right)$ 组成，那整个过程就可以用 $\tau=\left(s_1,a_1,s_2,a_2,s_3,\cdots,s_T,a_T,s_{T+1}\right)$ 来表示，这个 $\tau$ 称为轨迹序列。
其中，Agent根据环境状态 $s$ ，选择动作 $a$ 的条件概率，可表示为：

$\pi\left(a\left|s\right.\right)=P\left(a_t=a\left|s_t=s\right.\right)$

我们Policy Based方法的基本思路，就是用一种方式去近似表示 $\pi\left(a\left|s\right.\right)$ ，这一思路与我们在值函数逼近方法中介绍的思路其实是一致的，我们在这里也使用带参数逼近法，如下：

$\pi\left(a\left|s\right.\right)\approx\pi_\theta\left(a\left|s\right.\right)=P\left(a\left|s\right.;\theta\right)$

与值函数逼近方法一样，用深度神经网络来拟合也是现在最普遍的方法，而这里的 $\theta$ 代表的就是网络的权重。

策略梯度推导

强化学习的目标，就是最大化收益。由于在强化学习中每一步都会产生一个环境奖励 $r_t$ ，那么，一次强化学习的总收益就可以写为：

$R\left(\tau\right)=\sum_{t=1}^Tr_t$

但是，由于一次强化学习的收益实质上是一个随机值，对于随机值我们是无法进行优化的，但我们可以去优化收益的期望值，即：

$J\left(\theta\right)=\sum_\tau P\left(\tau;\theta\right)R\left(\tau\right)=E_{\tau\sim P\left(\tau;\theta\right)}\left[R\left(\tau\right)\right]$

其中 $P\left(\tau;\theta\right)$ 为轨迹序列 $\tau$ 出现的概率。可表示为如下形式：

$P\left(\tau;\theta\right)=P\left(s_1,a_1,s_2,a_2,s_3,\cdots,s_T,a_T,s_{T+1};\theta\right)\\=P\left(s_1\right)\pi_\theta\left(a_1\left|s_1\right.\right)P\left(s_2\left|s_1\right.,a_1\right)\pi_\theta\left(a_2\left|s_2\right.\right)P\left(s_3\left|s_2\right.,a_2\right)\cdots\\=P\left(s_1\right)\prod_{t=1}^T\pi_\theta\left(a_t\left|s_t\right.\right)P\left(s_{t+1}\left|s_t\right.,a_t\right)$

其中 $P\left(s_1\right)$ 和 $P\left(s_{t+1}\left|s_t\right.,a_t\right)$ 由环境决定。对于带参数的收益期望值，我们可以根据如下公式优化参数 $\theta$ ，以使收益的期望值最终收敛到最大：

$\theta\leftarrow\theta+\alpha\nabla J\left(\theta\right)$

其中 $\alpha$ 是参数， $\nabla J\left(\theta\right)$ 是对 $J\left(\theta\right)$ 求偏导，这个公式也称为梯度上升。那么，这个梯度如何来求呢？我们可以回忆一下蒙特卡洛法，即“通过随机抽样的方法，以抽样的数字特征估算随机变量的数字特征”，因此，我们对 $\nabla J\left(\theta\right)$ 做如下变换：

$\nabla J\left(\theta\right)=\sum_\tau R\left(\tau\right)\nabla P\left(\tau;\theta\right)\\\;\;\;\;\;\;\;\;\;=\sum_\tau R\left(\tau\right)P\left(\tau;\theta\right)\frac{\nabla P\left(\tau;\theta\right)}{P\left(\tau;\theta\right)}\\\;\;\;\;\;\;\;\;\;=\sum_\tau P\left(\tau;\theta\right)R\left(\tau\right)\nabla\log P\left(\tau;\theta\right)\\\;\;\;\;\;\;\;\;\;=E_{\tau\sim P\left(\tau;\theta\right)}\left[R\left(\tau\right)\nabla\log P\left(\tau;\theta\right)\right]$

对于 $\log P\left(\tau;\theta\right)$ ，我们可以将前面的 $P\left(\tau;\theta\right)$ 代入，得到下式：

$\log\left[P\left(\tau;\theta\right)\right]=\log\left[P\left(s_1\right)\prod_{t=1}^T\pi_\theta\left(a_t\left|s_t\right.\right)P\left(s_{t+1}\left|s_t\right.,a_t\right)\right]\\=\log P\left(s_1\right)+\sum_{t=1}^T\log\pi_\theta\left(a_t\left|s_t\right.\right)+\sum_{t=1}^T\log P\left(s_{t+1}\left|s_t\right.,a_t\right)$

然后，再对 $\log P\left(\tau;\theta\right)$ 求偏导，上式中的第一项 $\nabla\log P\left(s_1\right)=0$ ，且第三项 $\overset T{\underset{t=1}{\nabla\sum}}\log P\left(s_{t+1}\left|s_t\right.,a_t\right)=0$ ，可得到：

$\nabla\log P\left(\tau;\theta\right)=\sum_{t=1}^T\nabla\log\pi_\theta\left(a_t\left|s_t\right.\right)$

那么，根据上面的式子，就可以得到 $\nabla J\left(\theta\right)$ 为：

$\nabla J\left(\theta\right)=E_{\tau\sim P\left(\tau;\theta\right)}\left[R\left(\tau\right)\nabla\log P\left(\tau;\theta\right)\right]\\\;\;\;\;\;\;\;\;=E_{\tau\sim P\left(\tau;\theta\right)}\left[R\left(\tau\right)\sum_{t=1}^T\nabla\log\pi_\theta\left(a_t\left|s_t\right.\right)\right]$

上式就可以使用经验平均法对其进行估算，假设我们构建一个样本库 $D$ ，其中保存了 $N=\left|D\right|$ 个样本，那么我们的 $\nabla J\left(\theta\right)$ 就可以使用下式进行近似：

$\nabla J\left(\theta\right)\approx\frac1{\left|D\right|}\sum_{\tau\in D}R\left(\tau\right)\sum_{t=1}^T\nabla\log\pi_\theta\left(a_t\left|s_t\right.\right)$

之后，我们再做一个转换处理，对于每个 $\tau$ 的损失函数，我们加一个负号，变为：

$-R\left(\tau\right)\sum_{t=1}^T\log\pi_\theta\left(a_t\left|s_t\right.\right)$

这样，就可以将GA（梯度上升）改为GD（梯度下降），然后使用SGD方法对参数 $\theta$ 进行更新，并最终实现最大化收益的期望值。

几个小技巧

在上面经典的策略梯度算法在实现时，可能会遇到一些问题，需要使用到以下一些小技巧。其中包括：

添加基线，以避免收益都是正的，无法实现对不好策略的剔除：

在这里插入图片描述

改变每个策略收益的计算方式，以体现其真正对收益的影响：

在这里插入图片描述
以上两幅图都是节选自李宏毅老师的课件中，在这里表示对李宏毅老师的感谢，同时推荐大家都去B站看一下“李宏毅深度强化学习(国语)课程”，一定受益匪浅。

samurasun

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
基础算法篇（五），Policy Based方法解决强化学习问题

我们前面几章介绍的方法中，无论是动态规划（DP）、蒙特卡洛（MC）、时序差分（TD）、或者值函数逼近方法（DQN、Double DQN、Dueling DQN、Prioritized Replay DQN）等，都是先计算出状态价值或状态-行为值，然后再用贪婪法等选择“行为”，这些方法统称为Value Based的方法。那么，有没有办法直接去求出行为呢？下面，我们就带大家进入Policy Based方法的大家庭。基本思路首先，让我们先回顾一下强化学习的基本过程：在强化学习基本概念小结中我们讲过，可以
复制链接

扫一扫