人工智能Paper解读之强化学习TRPO算法

最新推荐文章于 2024-07-30 17:00:55 发布

meizhulei

最新推荐文章于 2024-07-30 17:00:55 发布

阅读量3.4k

点赞数 19

分类专栏：机器学习原创文章标签：强化学习置信域优化机器学习 TRPO

本文链接：https://blog.csdn.net/meizhulei/article/details/85138538

版权

人工智能Paper解读之强化学习TRPO算法

Paper来源，issued: Apri 20,2017 , Author :John Schulman

《Trust Region Policy Optimization》链接高能，慎重点开

1.这个有点难

首先，请让我矫情一下，开始写这篇blog，我还是挺心虚的，整晚整晚的睡不着，害怕写不好，因为这篇Paper真的不好懂，研读这篇文章时候，一度怀疑自己的智商，甚至想到趁额头头发还有几根没有掉完，从今以后不再做技术了，去环游世界或者探索太空不也很好嘛，正当我不敢直面自己的惨淡的人生之时，传说有个叫openAI Five团队底层采用了TRPO算法，在5v5的Dota2开黑团战对战中，击败人类玩家战队，顿时让我，让我。。。。超级想吃王思聪的热狗，哈哈哈

以下gif来自openAI玩家(PS:dota我不行，不要找我）

索性就吃着热狗给你们解读吧

2.大牛大神，你们好！

这篇Paper的作者John Schulman师从这么多大名鼎鼎的一些人物，实在让人恨啊！我就不一一介绍了，总之一句话，地球最强战队。统计学祖师爷Michael.I.Jordon桃李满天下，掀起了人工智能热潮，让人顶礼膜拜。
话说回来，今天要讲的TRPO算法其实用了很多统计学和优化理论的知识。由于本人能力有限，可能有解读不到位的地方，恳请读者指正，不吝赐教

3.还等什么，那我们就开始吧

基于无模型(model free)的强化学习算法，可以从两个方面进行求解，第一是基于值函数的方法，第二只基于策略梯度的算法，在基于策略梯度的TRPO算法提出之前，包括A2C，A3C，DDPG等一系列算法很难保证单调收敛。
比如基于策略梯度算法: $\theta_{new}=\theta_{old}+\alpha\nabla_\theta$
当我们做优化的时候，如果步长 $\alpha$ 太小，那么就会导致更新效率低下，步长 $\alpha$ 如果太大，会导致更新的策略比上次更差，通过更差的策略去采样，那么会得到更差的样本，用差的样本去更新参数，那么更新到的参数会更差，这样一旦“误人子弟”，那么便迭代相传，而在这种“兜兜转转”不肯“朝着山顶”很好收敛的情况下，最终会导致优化崩溃。所以合适的步长对于强化学习非常之关键，试想我们如果能找到一种步长，使他每次更新时都能保证回报函数单调递增，一步一个台阶，稳定上升，这样的步长就是好步长。TRPO的核心就是要解决这样的问题。

4.渐入深水区

既然TRPO的根本目的是为了使每次更新的回报函数单调不减，可以理解为每次更新都是有意义的更新，有意义的探索。那么如何才能做到呢？或者说，假如我们在训练的第i步得到一个策略 $\pi_{i}$ ,当迭代到第i+1步的时候，如何在策略 $\pi_{i}$ 的基础上得到 $\pi_{i+1}$ 呢？一个很自然的想法是将新的策略 $\pi_{i+1}$ 对应的回报函数 $\eta \left( \pi _ { i + 1 } \right)$ 分解成原来策略对应的回报函数 $\eta \left( \pi _ { i } \right)$ 加一个其他项，关键是这个其他项，如果我们能保证这个其他项是大于零的。那就是说明，这个新策略 $\pi_{i+1}$ 我们是可以接受的，因为新的策略函数 $\pi_{i+1}$ 让回报函数相比前一步变大了，也就是朝着最优的方向“百尺竿头更进一步”，基于这样的想法，就可以开始我们的具体实现方案。
（1）我们有如下定义：
给定一个infinite-horizon discounted 马尔科夫决策过程的描述如下
$\left( \mathcal { S } , \mathcal { A } , P , r , \rho _ { 0 } , \gamma \right)$
S 是有限的状态空间
A 是有限的动作空间
P 可以理解为HMM中的状态转移矩阵,只不过加了动作，这里有三维，可以表示为, $\mathcal { S } \times \mathcal { A } \times \mathcal { S } \rightarrow \mathbb { R }$
r 是处在状态s的及时回报，可以表示为 $\mathcal { S } \rightarrow \mathbb { R }$
$\rho_{0}$ : 是起始状态 $s_{0}$ 的状态分布，至于为什么在这里定义这样一种分布，且看下面的讲解
$\pi$ 在状态s采取的动作a的随机概率 $\pi ： \mathcal { S } \times \mathcal { A } \rightarrow [ 0,1 ]$
下面的 $\tilde{\pi}$ 代表下一轮或者新的策略
$\gamma$ 折扣因子 $\gamma \in ( 0,1 )$

(2) 在第i步，假设我们已知策略 $\pi$ ,在策略 $\pi$ 的指导下我们得到如下和环境交互的片段或者完整序列
$\tau_{0}：s_{0} , a_{0}\rightarrow s_{1} , a_{1}\rightarrow s_{2}, a_{2} \rightarrow s_{3}, a_{3} \rightarrow s_{4}, a_{4} \rightarrow ......:\tau_{0}回报为：G_{\tau_{0}} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau_{0} \\ \tau_{1}：s_{0} , a_{0} \rightarrow s_{1}, a_{1} \rightarrow s_{2}, a_{2} \rightarrow s_{3}, a_{3} \rightarrow s_{4}, a_{4} \rightarrow ......:\tau_{1}回报为：G_{\tau_{1}} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau_{1} \\ \tau_{2}：s_{0} , a_{0}\rightarrow s_{1} , a_{1}\rightarrow s_{2}, a_{2} \rightarrow s_{3}, a_{3} \rightarrow s_{4}, a_{4} \rightarrow ...... :\tau_{2}回报为：G_{\tau_{2}} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau_{2} \\ \tau_{3}：s_{0} , a_{0}\rightarrow s_{1} , a_{1}\rightarrow s_{2}, a_{2} \rightarrow s_{3}, a_{3} \rightarrow s_{4} , a_{4}\rightarrow ......:\tau_{3}回报为：G_{\tau_{3}} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau_{3} \\ .......\\ \tau_{n}：s_{0} ,a_{0}\rightarrow s_{1} , a_{1} \rightarrow s_{2}, a_{2} \rightarrow s_{3}, a_{3} \rightarrow s_{4} , a_{4}\rightarrow ......:\tau_{n}回报为：G_{\tau_{3}} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau_{n} \\$
(3) 在第i+1 步我们要得到策略 $\tilde{\pi}$ ，使得回报函数变大。首先我们需要先定义回报函数，如下：
当给定一些片段或者整段的状态和动作序列的时候，得到这些状态序列的的期望回报为
$\eta ( \pi ) = \mathbb { E } _ { s _ { 0 } , a _ { 0 } , \dots } \left[ \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) \right] \\ s _ { 0 } \sim \rho _ { 0 } \left( s _ { 0 } \right) , a _ { t } \sim \pi \left( a _ { t } | s _ { t } \right) , s _ { t + 1 } \sim P \left( s _ { t + 1 } | s _ { t } , a _ { t } \right)$
当你刚看到这个公式的时候可能会一脸懵，如果我把他写成如下的形式，或许更好理解一点，其中下式G就是代表在状态 $s_{0}$ 的时候，其中产生的一个序列 $\tau$ 的累计回报而已
$G_{\tau} = \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) 其中 s_{t} \in \tau \\ \eta ( \pi ) = \mathbb { E } _ { \tau } \left[ G_{\tau} \right] = \mathbb { E } _ { s _ { 0 } , a _ { 0 } , \dots } \left[ \sum _ { t = 0 } ^ { \infty } \gamma ^ { t } r \left( s _ { t } \right) \right] ,\tau \in \left\{ \tau_{0},\tau_{1},\tau_{2}.......\tau_{n}\right \}$
我们用 $\eta ( \pi )$ 代表:如果在选取策略概率函数 $\pi$ 时候，在其作用下产生的所有一系列序列的累计回报期望，注意：如果这个期望越大，说明这个策略函数 $\pi$ 越优秀.

5.我们怎么得到 $\eta ( \pi )$ 和 $\eta ( \tilde{\pi} )$ 的关系

第一阶段

有了 $\eta ( \pi )$ 的定义，那么我们是怎么得到 $\eta ( \pi )$ 和 $\eta ( \tilde{\pi} )$ 的关系，进而推导出在选取策略 $\tilde{\pi}$ 的时候， $\eta ( \tilde{\pi} )$ 比 $\eta ( \pi )$ 回报值大呢？
带着这样的问题，我们继续向下看：
首先我们来回忆一下以前我们学的状态值函数和状态动作值函数表达式
$\begin{array} { l } { Q _ { \pi } \left( s_{ t } , a_{ t } \right) = \mathbb { E } _ { s _ { t + 1 } , a _ { t + 1 } , \ldots } \left[ \sum _ { l = 0 } ^ { \infty } \gamma ^ { l } r \left( s _ { t + l } \right) \right] } \\ { V _ { \pi } \left( s _ { t } \right) = \mathbb { E } _ { a _ { t } , s _ { t + 1 } \ldots } \left[ \sum _ { l = 0 } ^ { \infty } \gamma ^ { l } r \left( s _ { t + l } \right) \right] } \end{array}$
上面的式子在我们刚接触强化学习的时候就要理解的式子，这里无需多言，大家可能都能明白，这里需要关注的是根据bellman equation，我们很容易得到
$\pi } \left( s _ { t } \right)= \sum_{a} \pi(a|s_{t})Q _ { \pi } \left( s _ { t } , a \right)$
那么问题来了，我们是不是可以把状态值函数 $\pi } \left( s _ { t } \right)$ 看做状态动作值函数 $\pi } \left( s _ { t } , a \right)$ 的平均值。那么当智能体所处状态 $s_{t}$ 的时候采取某一具体动作a的时候，算出来的状态值函数 $\pi } \left( s _ { t } , a \right)$ 相对平均值 $\pi } \left( s _ { t } \right)$ 产生的差异是什么？是比平均值大还是比平均值小呢？好了，我们用势能函数 $\left( s,a \right)$ 来表示,定义如下
$A_{ \pi } ( s_{t}, a ) = Q_{ \pi } ( s_{t} , a ) - V_{ \pi } ( s_{t} )$
而由于
$V_{ \pi } ( s_{t} ) = E_{ s_{t+1} \sim P \left( s_{t+1} | s_{t}, a \right) } \left[ V _ { \pi } ( s_{t} ) \right]$