RL-赵-(九)-Policy-Based02：目标函数/Metrics的选取【①average state value；②average one-step reward】、目标函数的梯度∇J(θ)

本文链接：https://blog.csdn.net/u013250861/article/details/135045868

在这里插入图片描述

一、目标函数的选取（Metrics to deﬁne optimal policies）【2类】

有两类形式的目标函数/metrics：

The average state value
Average one-step reward

1、The average state value

2种常见表达形式：
$\begin{aligned} \bar{v}_{\pi}\:&=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s) \\[2ex] &\doteq\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}\right] \end{aligned}$

在这里插入图片描述

第一大类是the average state value, 或者简单地称为 average value。这个metric定义如下：
$\bar{v}_{\pi}\:=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s)$

其中 $\bar{v}_\mathrm{\pi}$ 是state values的加权平均；
$d (s) \geq 0$ 是对于状态 $s$ 的权重
因为 $\sum_{s\in S}d(s)=1$ ，我们可以将 $d (s)$ 解释为一个概率分布（probability distribution）。然后，这个melnic可以被写为
$\bar{v}_\pi=\mathbb{E}[v_\pi(S)]$
其中 $S\sim d$ 。

显然 $\bar{v}_\mathrm{\pi}$ 是策略 $\pi$ 的函数，不同的策略 $\pi$ 对应的它的值也不同，所以我们就可以去优化，找到一个最优的策略 $\pi$ 让这个值达到最大，这个其实是非常自然的一个选择metric的一个方法。

Vector-product(向量内积)的形式：
$\bar{v}_\pi=\sum_{s\in\mathcal{S}}d(s)v_\pi(s)=d^Tv_\pi$
其中

$v_\pi=[...,v_\pi(s),...]^T\in\mathbb{R}^{|\mathcal{S}|}$ ，这里边的每一个元素 $v_\pi(s)$ 对应的就是 $s$ 的state value；
$d=[...,d(s),...]^T\in\mathbb{R}^{|\mathcal{S}|}$ ，这里边的每一个元素 $d (s)$ 对应的是状态 $s$ 的权重或者是概率；

这种形式对于后面分析它的梯度是非常有帮助的。

在这里插入图片描述

如何选择分布 $d$ ? 这里有两种情况：

第一种情况是 $d$ 和策略 $\pi$ 没什么关系。
- 这种情况相对简单，因为metric的gradient是容易计算的。如果这个 $d$ 和 $π$ 没有关系那我求 $v_π$ 的梯度的时候，这个 $d$ 就不涉及到任何的梯度所以我会只求一个 $v_π$ 的梯度（如果 $d$ 和 $π$ 有关系那我求 $v_π$ 梯度的时候，当然也要求这个 $d$ 关于这个 $π$ 的梯度，所以相对来说会麻烦一点）。
- 这种情况下，为了表明 $d$ 和 $π$ 没有关系，将 $d$ 写为 $d_0$ ， $\bar{v}_\pi$ 写为 $\bar{v}_\pi^0$
- 如何选择 $d_0?$
  - 一个简单的方式是平等地对待所有的states，即选择 $d_0(s)=\cfrac{1}{|S|}$ ，所以这个实际上是一个均匀分布。
  - 另一个重要的情况是我们只对一个特定的state $s_{0}$ 感兴趣。例如，episodes在某些任务中总是从相同的state $s_{0}$ 开始【比如说在一些游戏最开始的时候，它总是从那个画面开始，那个画面实际上就对应一个特定的状态 $s_0$ ，那从那出发我希望我能够得到的reward是越大越好，在这种情况下我就不能对所有的状态都一视同仁了，那我可能要对一些状态有所偏好，那在这个极端情况下就是我只关心 $s_{0}$ ，从 $s_{0}$ 出发我所得到的 reward 越大越好】，然后，我们仅仅关注从 $s_0$ 开始的long-term return。在这种情况下
    $\begin{aligned} &d_0(s_0)=1\\ &d_0(s\neq s_0)=0 \end{aligned}$
    在这种情况下 $\bar{v}_\pi$ 也就变成了 $\bar{v}_\pi^0$ ，我去最大化这个 $\bar{v}_\pi$ ，实际上就是最大化从 $s_{0}$ 出发我能得到多大的return。
第二种情况是 $d$ 依赖于策略 $π$ 。
- 这是一种常见的选择，选择 $d$ 为 $d_\pi(s)$ , 即 stationany distribution under $\pi$ 【简单来说就是我有一个策略，然后我跟随那个策略去不断地和环境进行交互，当我执行那个策略很多很多次之后我就可以预测在某一个状态就是agent在那个状态它的概率是多少，也就是那时候会逐渐达到一个平稳的状态，而且这个概率其实可以直接通过这个 $d_\pi^TP_\pi=d_\pi^T$ 式子给计算出来】。
  - $d_pi$ 的一个基本性质是它满足
    $d_\pi^TP_\pi=d_\pi^T$
    其中 $P_\mathrm{\pi}$ 是state transition probability matrix（状态转移矩阵）。
- 选择 $d_{\pi}$ 的解释：
  - 如果一个state在long run中是frequently visited, 它是更重要的，应带给与更多权重；
  - 如果一个state很少被visited，相应的它的权重自然少一些；

2、average one-step reward

2种常见表达形式：
$\begin{aligned} \bar{r}_{\pi}&\doteq\sum_{s\in\mathcal{S}}d_{\pi}\left(s\right)r_{\pi}\left(s\right) \\[4ex] &\doteq\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{k=1}^{n}R_{t+k}\right] \\[4ex] \end{aligned}$

在这里插入图片描述
第二大类是average one-step reward, 或者简称为 average reward.具体地 $_{\prime}$ the metrics是
$\color{red}{ \bar{r}_{\pi}\doteq\sum_{s\in\mathcal{S}}d_{\pi}\left(s\right)r_{\pi}\left(s\right)=\mathbb{E}[r_{\pi}\left(S\right)]}$
其中：

$d_π(s)$ 是 $s$ 所对应的权重，它实际上是stationary distribution，它是依赖于这个策略 $π$ 的；
$S\sim d_{\pi}$ 。
$\begin{aligned}r_\pi\doteq\sum_{a\in\mathcal{A}}\pi(a|s)r(s,a)\end{aligned}$ 是从 $s$ 出发我所得到的单步的immediate reward的一个平均值, 并且
$r(s,a)=\mathbb{E}[R|s,a]=\sum_rrp(r|s,a)$

正如它的名称所暗示的， $\bar{r}_\pi$ 是 one-step immediate reward的一个加权平均值（ $\bar{r}_\pi$ 上面这条横线也是代表一个平均的意思）。

在这里插入图片描述
上面average reward的第二种形式：

假设一个agent沿着一个给定的policy，生成一个trajectory，它的rewards是 $R_{t+1},R_{t+2},...)$ ；
沿着trajectony的average single-step reward是
$\begin{aligned} &\begin{aligned}\lim_{n\to\infty}\frac1n\mathbb{E}\Big[R_{t+1}+R_{t+2}+\cdots+R_{t+n}|S_t=s_0\Big]\end{aligned}=\lim_{n\to\infty}\frac1n\mathbb{E}\left[\sum_{k=1}^nR_{t+k}|S_t=s_0\right] \end{aligned}$
其中 $s_0$ 是the starting state of the trajectory。

在这里插入图片描述
上面的形式还可以继续改写为：
$\begin{aligned} \lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{k=1}^nR_{t+k}|S_t=s_0\right]&=\color{red}{\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{k=1}^{n}R_{t+k}\right]}\\ &=\sum_sd_\pi(s)r_\pi(s) \\ &=\bar{r}_{\pi} \end{aligned}$
大家看 $s_0$ 没有了为什么呢？因为 $s_0$ 不起作用就是你跑了无穷多步之后，你最开始从哪开始的其实已经不再重要了。
注意：

当n趋近于无穷的时候，starting state $s_{0}$ 已经不重要了。
这两个关于 $\bar{r}_\pi$ 的等式是相等的。

这个式子是大家在论文当中你可能会经常看到的一个式子。

3、Remarks

在这里插入图片描述

对上面两个metrics强调几点：

Remark1
- 这些 metrics 都是策略 $\pi$ 的函数；
- 因为策略 $\pi$ 是由 $\theta$ 进行参数化的，因此这些metric是 $\theta$ 的函数；
- 换句话说，不同的 $\theta$ 可以生成不同的metric values；
- 因此，我们可以搜索最优的 $\theta$ 进而最大化这些metrics；
Remark2
- 这些metrics是具有复杂性的，分为两种情况，第一种是 discounted case, 其中 $\gamma\in[0,1)$ ；另一种情况是 undiscounted case 其中 $\gamma=1$ 。
- 这里我们仅仅考虑the discounted case.
Remark3
- 直观上， $\bar{r}_\pi$ 是short-sighted，因为它很少考虑the immediate rewards, 而 $\bar{v}_\pi$ 考虑 the total reward overall steps。【 $\color{red}{×}$ 】
- 然而，事实上这两个metrics是等价的，具体地，在discounted case, 当 $\gamma<1$ ,有
  $\bar{r}_\pi\:=\:(1-\gamma)\bar{v}_\pi$

4、练习（目标函数的另一种形式）

在这里插入图片描述

回答：首先，分析和理解这样一个metric。

它从 $S_0\sim d$ 开始，然后 $A_0,R_1,S_1,A_1,R_2,S_2,......$
$A_t\sim\pi(S_t)$ ，并且 $R_{t+1},S_{t+1}\sim p(R_{t+1}|S_t,A_t)$ ， $p(S_{t+1}|S_t,A_t)$

然后，我们知道这个metric和average value相同，因为
$\begin{aligned} J(\theta) =\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}\right] &=\sum_{s\in\mathcal{S}}d(s)\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}|S_0=s\right]\\ &=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s) \\ &=\bar{v}_{\pi} \end{aligned}$

二、目标函数的梯度（Gradients of the metrics）

在这里插入图片描述
给定一个metric，然后

推导它的梯度
然后，应用gradient-based methods去优化这个metric。

gradient的计算是policy gradient methods中最复杂的计算部分!

首先，我们需要区分不同的目标函数/metrics：
- $\begin{aligned}\bar{v}_{\pi}\:&=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s)\doteq\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}\right] \end{aligned}$
- $\bar{v}_\pi^0$ ；
- $\begin{aligned}\bar{r}_{\pi}\doteq\sum_{s\in\mathcal{S}}d_{\pi}\left(s\right)r_{\pi}\left(s\right) \doteq\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{k=1}^{n}R_{t+k}\right] \\[4ex]\end{aligned}$
第二，我们需要区分 the discounted 和 undiscounted cases

在这里插入图片描述
Gradients/梯度的统一表示形式：
$\color{red}{ \nabla_\theta J(\theta)=\sum_{s\in\mathcal{S}}\eta(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)}$
其中

目标函数 $J(\theta)$ 可以是：
- $\begin{aligned}\bar{v}_{\pi}\:&=\sum_{s\in\mathcal{S}}d(s)v_{\pi}(s)\doteq\mathbb{E}\left[\sum_{t=0}^\infty\gamma^tR_{t+1}\right] \end{aligned}$
- $\bar{v}_\pi^0$ ；
- $\begin{aligned}\bar{r}_{\pi}\doteq\sum_{s\in\mathcal{S}}d_{\pi}\left(s\right)r_{\pi}\left(s\right) \doteq\lim_{n\to\infty}\frac{1}{n}\mathbb{E}\left[\sum_{k=1}^{n}R_{t+k}\right] \\[4ex]\end{aligned}$
$=$ 可以表示严格相等（=），近似（≈）或者成比例等于（∝）；
$\begin{aligned}\sum_{s\in\mathcal{S}}\end{aligned}$ ：表示对 $s$ 求和；
$\eta$ 是一个在states下的分布或者权重，每一个state有一个权重 $\eta(s)$ ； $\eta$ 对于不同的目标函数在不同的情况下它会呈现出来不同的distribution；
$\begin{aligned}\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)\end{aligned}$ ：表示每一个 state $s$ 对应的所有的 action 的 $\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)$ 的加和；
- $\nabla_\theta\pi(a|s,\theta)$ ：表示策略 $π$ 的梯度；
- $q_\pi(s,a)$ ：表示 $(s, a)$ 的action value；

总而言之，所有这些情况求出来的gradient是大同小异，所以就用这一个式子来表示出来了。对于绝大多数的同学来说这个式子就够了，除非是你需要去研究创新新的算法，那你可以到书里面去看详细的内容。

分别对于 $\bar{r}_{\pi}$ 、 $\bar{v}_{\pi}$ 、 $\bar{v}_\pi^0$ ，我们可以分别得到以下梯度公式（Details are not given here. Interested readers can read my book）：
$\color{red}{ \begin{aligned} &\nabla_\theta\bar{r}_\pi \simeq\sum_sd_\pi(s)\sum_a\nabla_\theta\pi(a|s,\theta)q_\pi(s,a), \\[2ex] &\nabla_\theta\bar{v}_\pi=\frac1{1-\gamma}\nabla_\theta\bar{r}_\pi \\[2ex] &\nabla_\theta\bar{v}_\pi^0 =\sum_{s\in\mathcal{S}}\rho_\pi(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \end{aligned}}$

1、梯度公式的分析

梯度/Gradient
$\nabla_\theta J(\theta)=\sum_{s\in\mathcal{S}}\eta(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a)$
可以写成一个这样紧凑且有用的形式：

$\begin{aligned} \nabla_\theta J(\theta)&=\sum_{s\in\mathcal{S}}\eta(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \\[4ex] &\color{red}{=\mathbb{E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]} \\ \end{aligned}$

其中： $S\sim\eta$ ， $A\thicksim\pi(A|S,\theta)$ 。

把所有的 $\sum$ 全都去掉写成一个期望/Expectation的形式： $\mathbb{E}[]$ ，
这里边的 $S$ 、 $A$ 都是是随机变量， $S\sim\eta$ ， $A\thicksim\pi(A|S,\theta)$ 。
- $S$ 是满足 $η$ 的分布；
- $A$ 是满足 $\pi(A|S,\theta)$ 的这样一个分布；

为什么需要 $\color{red}{\nabla_\theta J(\theta)=\mathbb{E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]}$ 这样的表达式? 就是因为这是一个真实的梯度，这个真实的梯度当中含有期望/Expectation，但是我不知道期望/Expectation，所以我就可以用采样来近似这个期望/Expectation。这个就是stochastic gradient descent或者是ascent的基本的思路。

使用采样的方式去近似梯度 $\nabla_\theta J(\theta)=\mathbb{E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]$ ：
$\nabla_\theta J\approx\nabla_\theta\ln\pi(a|s,\theta)q_\pi(s,a)$

2、梯度公式期望/Expectation形式的证明

如何根据

$\begin{aligned} \nabla_\theta J(\theta)&=\sum_{s\in\mathcal{S}}\eta(s)\sum_{a\in\mathcal{A}}\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \\[4ex] \end{aligned}$

得到下面梯度的Expectation形式呢：

$\begin{aligned} \nabla_\theta J(\theta)&\color{red}{=\mathbb{E}[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)]} \\ \end{aligned}$

证明：
$∵$
$\nabla_\theta\:\ln\pi(a|s,\theta)=\frac{\nabla_\theta\:\pi(a|s,\theta)}{\pi(a|s,\theta)}$
$∴$
$\nabla_\theta\pi(a|s,\theta)=\pi(a|s,\theta)\nabla_\theta\:\ln\pi(a|s,\theta)$
为什么要做这样替换呢？就是因为它能够写成 Expectation 的形式。我们接下来看一下：
$∵$
$\begin{aligned} \nabla_\theta\bar{r}_\pi \simeq\sum_sd_\pi(s)\sum_a\nabla_\theta\pi(a|s,\theta)q_\pi(s,a), \\[2ex] \end{aligned}$
$∴$
$\begin{aligned} \nabla_\theta J&=\sum_sd(s)\sum_a\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \\[2ex] &=\sum_sd(s)\sum_a\color{red}{\pi(a|s,\theta)\nabla_\theta\ln\pi(a|s,\theta)}\color{black}{q_\pi(s,a)} \\[2ex] \end{aligned}$
首先我们把前面 $\begin{aligned}\sum_sd(s)\end{aligned}$ 这个求和写成了Expectation 的形式，得到：

其中 $S$ 满足 $d$ 的分布。

接下啦，再把 $\begin{aligned}\sum_a\pi(a|S,\theta)\end{aligned}$ 这个求和写成了Expectation 的形式，得到：

$\begin{aligned} \nabla_\theta J&=\sum_sd(s)\sum_a\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \\[2ex] &=\sum_sd(s)\sum_a\color{red}{\pi(a|s,\theta)\nabla_\theta\ln\pi(a|s,\theta)}\color{black}{q_\pi(s,a)} \\[2ex] &=\mathbb{E}_{\color{red}{S}\sim d}\left[\sum_a\pi(a|S,\theta)\nabla_\theta\ln\pi(a|S,\theta)q_\pi(S,a)\right] \\[2ex] &=\mathbb{E}_{S\boldsymbol{\sim}d,\color{red}{A}\boldsymbol{\sim}\boldsymbol{\pi}}\left[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)\right] \end{aligned}$
其中 $A$ 满足 $π$ 的分布。省略下标 ${S}\boldsymbol{\sim}\boldsymbol{d},{A}\boldsymbol{\sim}\boldsymbol{\pi}$ ，得到如下式子：

$\begin{aligned} \nabla_\theta J&=\sum_sd(s)\sum_a\nabla_\theta\pi(a|s,\theta)q_\pi(s,a) \\[2ex] &=\sum_sd(s)\sum_a\color{red}{\pi(a|s,\theta)\nabla_\theta\ln\pi(a|s,\theta)}\color{black}{q_\pi(s,a)} \\[2ex] &=\mathbb{E}_{\color{red}{S}\sim d}\left[\sum_a\pi(a|S,\theta)\nabla_\theta\ln\pi(a|S,\theta)q_\pi(S,a)\right] \\[2ex] &=\mathbb{E}_{S\boldsymbol{\sim}d,\color{red}{A}\boldsymbol{\sim}\boldsymbol{\pi}}\left[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)\right] \\[2ex] &\doteq\mathbb{E}\left[\nabla_\theta\ln\pi(A|S,\theta)q_\pi(S,A)\right] \end{aligned}$

一些补充说明：

因为我们需要计算 $\ln\pi(a|s,\theta)$ ,我们必须确保对于所有 $s,a,\theta$ ，满足： $\pi(a|s,\theta)>0$ ，可以通过以下手段达到这一目的：

通过使用softmax function来满足这一要求，它能将 $(-\infty,+\infty)$ 的向量实体归一化到(0,1)；
例如，对于任意向量 $x=[x_1,...,x_n]^T$ ,
$z_i=\frac{e^{x_i}}{\sum_{j=1}^ne^{x_j}}$
其中 $z_i\in(0,1)$ ,并且 $\sum_{i=1}^nz_i=1$ 。
然后，有了softmax函数，就可以写出policy function, 如下：
$\pi(a|s,\theta)=\frac{e^{h(s,a,\theta)}}{\sum_{a^{\prime}\in\mathcal{A}}e^{h(s,a^{\prime},\theta)}}$
其中 $h(s,a,\theta)$ 是另一个函数。

在这里插入图片描述

需要强调的几点：

基于 softmax 函数的这种形式可以通过神经网络实现，其输入是 $s$ ，参数是 $θ$ 。该网络具有 $|\mathcal{A}|$ 个输出，每个输出对应于动作 $a$ 的 $π (a ∣ s, θ)$ 。输出层的激活函数应该是 softmax。
由于对于所有的 $a$ ， $π (a ∣ s, θ) > 0$ ，参数化的策略是随机的，因此具有探索性质。
也存在确定性策略梯度（DPG）方法。

参考资料：
强化学习导论（十三）- 策略梯度法