DataWhale-深度学习2阶段-打卡2

最新推荐文章于 2024-10-16 10:08:57 发布

不要生气--

最新推荐文章于 2024-10-16 10:08:57 发布

阅读量353

点赞数 8

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_65964945/article/details/135707465

版权

策略梯度算法(2024-1-18~2024-1-20)

策略梯度（ $p o l i cy - ba se d$ ）

1.基于价值算法的缺点

无法表示连续动作。DQN等算法通过学习状态和动作的价值函数来间接指导策略。只能处理离散动作问题。
高方差 。基于价值的方法通常是通过采样来估计价值函数，导致方差很高。
探索与利用的平衡问题 。 $\epsilon\text{-greedy}$ 策略可以实现一定程度的随机但效果不理想。

2.策略梯度算法

累积的价值期望 $V^{*}(s)$

$\pi_{\theta}(a|s)$ 来表示策略，即在状态 $s$ 下采取动作 $a$ 的概率分布 $ p(a|s)$，其中 $\theta$ 是我们要去求出来的模型参数。

回合（ $e p i so d e$ ）：环境首先会产生初始状态 $s_0$ 然后智能体对应的执行动作 $a_0$ ,然后转移到下一个状态 $s_1$ ，并且奖励一个 $r_1$ ,智能体再根据当前状态选择下一个动作，以此递推至终止状态。

轨迹( $t r aj ec t ory$ ):把所有状态和动作按顺序组合起来。 $\tau$ 。
$\tag{9.1} \tau=\left\{s_{0}, a_{0}, s_{1}, a_{1}, \cdots, s_{T}, a_{T}\right\}$
$T$ 表示回合的终止时刻。由于环境初始化是随机的，我们假设产生初始状态 $s_0$ 的概率为 $p(s_0)$ ，那么给定策略函数 $\pi_{\theta}(a|s)$ 的情况下，其实是很容易计算出轨迹 $\tau$ 产生的概率的，用 $P_{\theta}(\tau)$ 表示。为了方便读者理解，我们假设有一个很短的轨迹 $\tau_0 = \{s_0,a_0,s_1\}$ ，即智能体执行一个动作之后就终止本回合了。

拆分一下在这条轨迹产生的过程中出现了那些概率事件，首先是环境初始化产生状态 $s_0$ ，接着是智能体采取动作 $a_0$ ，然后环境转移到状态 $s_1$ ，即整个过程有三个概率事件，那么根据条件概率的乘法公式，该轨迹出现的概率应该为环境初始化产生状态 $s_0$ 的概率 $p(s_0)$ 乘以智能体采取动作 $a_0$ 的概率 $\pi_{\theta}(a_0|s_0)$ 乘以环境转移到状态 $s_1$ 的概率 $p(s_1|s_0,a_0)$ ，即 $P_{\theta}(\tau_0) = \pi_{\theta}(a_0|s_0)p(s_1|s_0,a_0)$ 。依此类推，对于任意轨迹 $\tau$ ，其产生的概率如式 $\text(9.2)$ 所示。

$\tag{9.2} \begin{aligned} P_{\theta}(\tau) &=p(s_{0}) \pi_{\theta}(a_{0} | s_{0}) p(s_{1} | s_{0}, a_{0}) \pi_{\theta}(a_{1} | s_{1}) p(s_{2} | s_{1}, a_{1}) \cdots \\ &=p(s_{0}) \prod_{t=0}^{T} \pi_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} | s_{t}, a_{t}\right) \end{aligned}$
将环境在每一步状态和动作下产生的奖励记作一个函数 $r_{t+1}=r(s_t,a_t),t=0,1,\cdots$ ，那么对于一条轨迹 $\tau$ 来说，对应的累积奖励就可以计算为 $R(\tau)=\sum_{t=0}^T r\left(s_t, a_t\right)$ ，注意这里出于简化考虑我们忽略了折扣因子 $\gamma$

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么在给定的策略下，即参数 $\theta$ 固定，对于不同的初始状态，会形成不同的轨迹 $\tau_{1},\tau_{2},\cdots$ ，对应轨迹的出现概率前面已经推导出来为 $P_{\theta}(\tau_{1}),P_{\theta}(\tau_{2}),\cdots$ ，累积奖励则为 $R(\tau_{1}),R(\tau_{2}),\cdots$ 。结合概率论中的全期望公式，我们可以得到策略的价值期望公式，即式 $\text(9.3)$ 。

$\tag{9.3} \begin{aligned} J(\pi_{\theta}) = \underset{\tau \sim \pi_\theta}{E}[R(\tau)] & = P_{\theta}(\tau_{1})R(\tau_{1})+P_{\theta}(\tau_{2})R(\tau_{2})+\cdots \\ &=\int_\tau P_{\theta}(\tau) R(\tau) \\ &=E_{\tau \sim P_\theta(\tau)}[\sum_t r(s_t, a_t)] \end{aligned}$
只要能求出梯度，就可以使用万能的梯度上升或下降的方法来求解对应的最优参数 $\theta^*$

目标是求关于参数 $\theta$ 的梯度，而公式中的 $R(\tau)$ 跟 $\theta$ 其实是没有关联的，因此在求解梯度的时候可以将这一项看作常数。

算法领域默认使用 $\log x$ 表示以 $e$ 为底的对数即可。回到我们的问题，使用这个对数微分技巧，我们就可以将目标函数的梯度做一个转化，即式 $\text(9.4)$ 。

$\tag{9.4} \nabla_\theta P_{\theta}(\tau)= P_{\theta}(\tau) \frac{\nabla_\theta P_{\theta}(\tau)}{P_{\theta}(\tau) }= P_{\theta}(\tau) \nabla_\theta \log P_{\theta}(\tau)$
根据 $P_{\theta}(\tau)=p(s_{0}) \prod_{t=0}^{T} \pi_{\theta}\left(a_{t} | s_{t}\right) p\left(s_{t+1} s_{t}, a_{t}\right)$ ，再根据对数公式 $l o g (ab) = l o g a + l o g b$ ，即可求出式 $\text(9.5)$ 。

$\tag{9.5} \log P_{\theta}(\tau)= \log p(s_{0}) + \sum_{t=0}^T(\log \pi_{\theta}(a_t \mid s_t)+\log p(s_{t+1} \mid s_t,a_t))$
发现 $\log P_{\theta}(\tau)$ 展开之后只有中间的项 $\log \pi_{\theta}(a_t \mid s_t)$ 跟参数 $\theta$ 有关，也就是说其他项关于 $\theta$ 的梯度为 $0$ ，即式 $\text(9.6)$ 。

$\tag{9.6} \begin{aligned} \nabla_\theta \log P_{\theta}(\tau) &=\nabla_\theta \log \rho_0\left(s_0\right)+\sum_{t=0}^T\left(\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)+\nabla_\theta \log p\left(s_{t+1} \mid s_t, a_t\right)\right) \\ &=0+\sum_{t=0}^T\left(\nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right)+0\right) \\ &=\sum_{t=0}^T \nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) \end{aligned}$

$\qquad$ 现在我们就可以很方便地求出目标函数的梯度了，如式 $\text(9.7)$ 所示。

$\tag{9.7} \begin{aligned} \nabla_\theta J\left(\pi_\theta\right) &=\nabla_\theta \underset{\tau \sim \pi_\theta}{\mathrm{E}}[R(\tau)] \\ &=\nabla_\theta \int_\tau P_{\theta}(\tau) R(\tau) \\ &=\int_\tau \nabla_\theta P_{\theta}(\tau) R(\tau) \\ &=\int_\tau P_{\theta}(\tau) \nabla_\theta \log P_{\theta}(\tau) R(\tau) \\ &=\underset{\tau \sim \pi_\theta}{\mathrm{E}}\left[\nabla_\theta \log P_{\theta}(\tau) R(\tau)\right]\\ &= \underset{\tau \sim \pi_\theta}{\mathrm{E}}\left[\sum_{t=0}^T \nabla_\theta \log \pi_\theta\left(a_t \mid s_t\right) R(\tau)\right] \end{aligned}$
公式中出现累乘的项时，我们通常都会取对数简化，因为根据对数公式的性质可以将累乘的项转换成累加的项，这样一来问题会更加便于处理。

区别

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.REINFORCE算法

不必采样所有的轨迹，而是采样一部分且数量足够多的轨迹，然后利用这些轨迹的平均值来近似求解目标函数的梯度。这种方法就是蒙特卡洛策略梯度算法，也称作 $\text{REINFORCE}$ 算法。

$\text{REINFORCE}$ 算法的做法是每次采样 $N$ 条轨迹，然后对这 $N$ 条轨迹的梯度求平均，即式 $\text(9.8)$ 。

$\tag{9.8} \nabla J_{\theta} \approx \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_{n}} G_{t}^{n} \nabla \log \pi_{\theta}\left(a_{t}^{n} \mid s_{t}^{n}\right)$
注意这里我们把奖励函数换成了带有折扣因子的回报 $G_{t}^{n}=\sum_{k=t}^{T_{n}} \gamma^{k-t} r_{k}^{n}$ ，其中 $T_n$ 表示第 $n$ 条轨迹的长度， $\gamma$ 表示折扣因子， $r_{k}^{n}$ 表示第 $n$ 条轨迹在第 $k$ 步的奖励。
$\tag{9.9} \begin{aligned} G_{t} &=\sum_{k=t+1}^{T} \gamma^{k-t-1} r_{k} \\ &=r_{t+1}+\gamma G_{t+1} \end{aligned}$

4.策略梯度推到进阶

我们假定了目标是使得每回合的累积价值最大，因此用对应的总奖励 $R(\tau)$ 或回报 $G(\tau)$ 来求解或者说评估价值。但实际使用过程中我们会发现这种价值的评估方法并不是很稳定，因为每回合的累积奖励或回报会受到很多因素的影响，比如回合的长度、奖励的稀疏性等等。

4.1平稳分布

马尔科夫链，在处于平稳分布下，我们会发现一些规律，一个是任意两个状态之间都是互相连通的，即任意两个状态之间都可以通过一定的步骤到达，这个性质称为连通性（ $\text{connectedness}$ ）。

切换到其他状态的概率就变成 $0$ 了，这个时候连通性就不成立了，我们把这个状态也叫做吸收状态。

马尔可夫链中，终止态不是吸收状态。只是方便计算把他的价值函数定义为0。类似于游戏中我们死亡并不代表结束，可以重新开始。

任意状态在平稳分布下的概率都是一样的，即任意状态的概率都是相等的，这个性质称为细致平稳（ $\text{detailed balance}$ ）。

一个马尔科夫链满足连通性，那么它一定满足细致平稳性，反之亦然。

马尔可夫链的平稳分布了，对于任意马尔可夫链，如果满足以下两个条件：

非周期性：由于马尔可夫链需要收敛，那么就一定不能是周期性的，实际上我们处理的问题基本上都是非周期性的，这点不需要做过多的考虑。
状态连通性：即存在概率转移矩阵 $P$ ，能够使得任意状态 $s_0$ 经过有限次转移到达状态 $s$ ，反之亦然。

$\qquad$ 这样我们就可以得出结论，即该马氏链一定存在一个平稳分布，我们用 $d^{\pi}(s)$ 表示，可得到式 $\text(9.11)$ 。

$\tag{9.11} d^\pi(s)=\lim _{t \rightarrow \infty} P\left(s_t=s \mid s_0, \pi_\theta\right)$

4.2基于平稳分布的策略梯度推导

$\tag{9.12} J(\theta)=\sum_{s \in \mathcal{S}} d^\pi(s) V^\pi(s)=\sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \mid s) Q^\pi(s, a)$

$\qquad$ 同样可以利用对数微分技巧求得对应的梯度，如式 $\text(9.13)$ 所示。

$\tag{9.13} \begin{aligned} \nabla_\theta J(\theta) & \propto \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} Q^\pi(s, a) \nabla_\theta \pi_\theta(a \mid s) \\ &=\sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \mid s) Q^\pi(s, a) \frac{\nabla_\theta \pi_\theta(a \mid s)}{\pi_\theta(a \mid s)} \\ &=\mathbb{E}_{\pi_{\theta}}\left[Q^\pi(s, a) \nabla_\theta \log \pi_\theta(a \mid s)\right] \end{aligned}$

5.策略函数的设计

5.1离散动作的策略函数

将动作概率分布转化到有正有负，采用Softmax函数来处理，如下
$\tag{9.14} \pi_\theta(s, a)=\frac{e^{\phi(s, a)^T} \theta}{\sum_b e^{\phi(s, b)^T}}$
其中 $\phi(s, a)$ 就是模型前面一层的输出。对应的梯度也可方便求得，如式 $\text(9.15)$ 所示。

$\tag{9.15} \nabla_\theta \log \pi_\theta(s \mid a)=\phi(s, a)-\mathbb{E}_{\pi_\theta}[\phi(s, .)]$

$\qquad$ 由于右边一项 $\mathbb{E}_{\pi_\theta}[\phi(s, .)]$ 表示的是动作层所有输出之和，也就是概率分布之和，即等于1，因此我们可以将其去掉，这样一来就可以得到更简单的梯度表达式，如式 $\text(9.16)$ 所示。

$\tag{9.16} \nabla_\theta \log \pi_\theta(s \mid a)= \phi(s, a)$

$\qquad$ 在实战中 $\phi(s, a)$ 和 $\text{Softmax}$ 函数层一般是合并在一起的，即直接在模型最后一层输出 $\text{Softmax}$ 函数的结果，即概率分布 $p_\theta(s, a)$ ，这样就得到了最终的策略梯度，即式 $\text(9.17)$ 。

$\tag{9.17} \nabla_\theta \log \pi_\theta(s \mid a)= \log p_\theta(s, a)$
$\text{logits-p}$ ,对应 $p_\theta(s, a)$ 叫做 $\text{probs}$ ，

5.2连续动作的策略函数

对于连续动作空间，策略对应的动作从高斯分布 ${\mathbb{N}}\left(\phi(s)^{\mathbb{T}} \theta, \sigma^2\right)$ ,对应梯度求得如下
$\tag{9.18} \nabla_\theta \log \pi_\theta(s, a)=\frac{\left(a-\phi(s)^T \theta\right) \phi(s)}{\sigma^2}$
动作从高斯分布 ${\mathbb{N}}\left(\phi(s)^{\mathbb{T}} \theta, \sigma^2\right)$ ,对应梯度求得如下
$\tag{9.18} \nabla_\theta \log \pi_\theta(s, a)=\frac{\left(a-\phi(s)^T \theta\right) \phi(s)}{\sigma^2}$
只需要在模型最后一层输出两个值，一个是均值，一个是方差，然后再用这两个值来构建一个高斯分布，然后采样即可。