【周博磊】强化学习纲要一至六讲笔记

BAJim_H

于 2022-04-09 22:28:43 发布

阅读量1.1k

点赞数

分类专栏：学习小记文章标签：强化学习

本文链接：https://blog.csdn.net/hzj1054689699/article/details/124069614

版权

学习小记专栏收录该内容

33 篇文章 1 订阅

订阅专栏

Reinforcement Learning

文章目录

Reinforcement Learning

据说本质上是一个动态规划最优解的求解器

1 Introduction

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bdkvJJI5-1649514448238)(C:\Users\rog\AppData\Roaming\Typora\typora-user-images\image-20220116111602275.png)]

Major component of an agent

Policy（策略）

决定agent的行为模式

一个从agent自身状态映射到行动的函数 $\pi$

stochastic policy 随机策略，对概率分布 $\pi(a|s)=P[A_t=a|S_t=s]$ （第t步状态位St时做出行为At的概率）进行采样
deterministic policy 决定性策略， $a^*=\arg\max\limits_{a}\pi(a|s)$ （直接取概率最大的那一个）

Value 价值函数

在策略函数 $\pi$ 的前提下，对当前状态的评估
$v_\pi(s)=\mathbb E_\pi[G_t|S_t=s]$
其中 $G_t$ 表示未来的总回报， $R_t$ 表示单步回报，那么 $G_t$ 可以这样定义（需要注意的是这里全都是期望，G和R不是定值）
$G_t=\sum\limits_{k=0}^{+\infty}R_{t+k+1}$
我们通常更希望更短时间内得到更多回报，于是引入折现因子 $\gamma\in [0,1]$
$G_t=\sum\limits_{k=0}^{+\infty}\gamma^kR_{t+k+1}$
折现因子的目的：

避免在某些带环的马尔科夫过程中的无穷奖励
尽可能快的得到更多奖励

也可以定义动作价值函数
$q_\pi(s,a)=v_\pi(s)=\mathbb E_\pi[G_t|S_t=s,A_t=a]$

Model（模型）

模型实际上是agent对环境的认知

预测环境内在的转移方程——做出这一步以后未来的环境（状态、回报）

可以表示为下面两个函数
$P_{ss'}^a=\mathbb P[S_{t+1}=s'|S_t=s,A_t=a]\\ R_s^a=\mathbb E[R_{t+1}|S_t=s,A_t=a]$
注意到此处的R是与策略无关的，仅是对环境的预测

这些构成了一个马尔科夫决策过程（MDPs）

马尔科夫过程是全可观测的

Maze example 走迷宫例子

Rewards: $R_t\equiv -1$ （时间越长越不好）

Actions: N E S W

状态就是当前位置

根据Agent学习目标的不同进行分类

Value-based agent：价值函数是显式的，直接去学习价值函数，策略是隐式的（通过估计函数得到）
policy-based agent：直接学习策略，没有学习价值函数
Actor-Critic agent：同时学习策略函数和价值函数，通过两者交互得到最佳行为

根据Agent是否学习环境模型进行分类

Model-based ：学习了环境状态的转移
Model-free：没有学习转移，直接学习policy/value

Exploration and Exploitation

探索新的行动/采取已知的能达到最优解的行动

trade-off ：平衡二者

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vMIevG3q-1649514448241)(C:\Users\rog\AppData\Roaming\Typora\typora-user-images\image-20220116104520315.png)]

RL Framework with openAI gym

import torch
env = gym.make("...")
observation = env.reset()
agent = load_agent() #defined by yourself
for step in range(100):
    action = agent(observation)
    observation, reward, done, info = env.step(action)

2 Markov Decision Process 马尔科夫决策过程

Markov Property

$h_t=\{s_1,...,s_t\}$
$p(s_{t+1}|s_t)=p(s_{t+1}|h_t)\\ p(s_{t+1}|s_t,a_t)=p(s_{t+1}|h_t,a_t)$
描述一个马尔科夫链——可以用带权（概率）的有向图

也可以用一个N*N的状态转移矩阵（即有向图的邻接矩阵）

Markov reward process (MRP)

马尔科夫链+奖励函数R
$R(s_t=s)=\mathbb E[r_t|s_t=s]$
价值函数 $V (s)$ ，同先前的公式 $(1)$ ，是对未来所有可能的回报R的期望

Bellman equation 贝尔曼等式

$V(s)=\underbrace {R(s)}_{\text{Immediate reward}}+\underbrace{\gamma\sum\limits_{s'\in S}P(s'|s)V(s')}_{\text{Discounted sum of future reward}}$

实际上就是将 $(1) (3)$ 式写成了仅含 $V$ 和单步回报 $R$ 的状态转移方程

——RL本质上是一个动态规划最优解求解器

也可以把 $(8)$ 式写成矩阵形式
$V=R+\gamma PV\ (V,R:N\times 1,P:N\times N)$
因而存在解析解
$V=(I-\gamma P)^{-1}R$
但是复杂度很大 $O(N^3)$ ，当状态数很多时不适用

有迭代方法

动态规划（不断迭代直至V收敛）
蒙特卡洛（随机采样）

MDP

在MRP的基础上加入决策（Decision）

MDP可以用一个tuple来描述： $(S,A,P,R,\gamma)$

分别表示状态集S、动作集A、模型P，奖励R，折现因子 $\gamma$
P的定义同 $(5)$ 式

对于一个在MDP中进行决策的agent，还需要有一个Policy function $\pi$ ，是一个概率分布

带策略 $\pi$ 的P，R可写为
$P^{\pi}(s'|s)=\sum\limits_{a\in A}\pi(a|s)P(s'|s,a) = \mathbb{E}[P(s'|s)] \\ R^{\pi}(s)=\sum\limits_{a\in A}\pi(a|s)R(s,a)=\mathbb E[R(s)]$
这里就直接省略了Action的部分，将Decision用概率分布 $\pi$ 表示，转移方程回到了MRP的样子

$(1) (4)$ 式已经给出了价值函数 $V$ 的表达形式，容易得到 $v^\pi(s)$ 和 $q^\pi(s,a)$ 的关系
$v^\pi(s)=\sum\limits_{a\in A}\pi(a|s)q^{\pi}(s,a)$
把 $q, v$ 展开到含 $P, R$ 的式子也是可以的，都比较简单

Optimal Value Function / Policy

$v^*(s)=\max\limits_{\pi} v^{\pi}(s)$

$\pi^*(s)=\arg\max\limits_{\pi}v^\pi(s)$

现在的问题是如何寻找optimal policy/value function，在初始时，这些都是不知道的。

策略和价值，求出了一个就求出了另一个。

穷举法 $O(|A|^{|S|})$ 是不可接受的

MDP Control 控制

Policy Iteration 策略迭代

与EM算法非常类似

根据当前的 $\pi_i$ 计算期望得到 $v,q^{\pi_i}$ ，再对计算出的 $q$ 取argmax得到新一轮 $\pi_{i+1}$

具体来说分成两部分

Policy Evaluation，策略评估
$v^{\pi_i}(s)=\sum\limits_{a\in A}\pi_i(a|s)(R(s,a)+\gamma\sum\limits_{s'\in S}P(s'|s,a)v^{\pi_{i-1}}(s'))$
$q^{\pi_i}(s,a)=R(s,a)+\gamma\sum\limits_{s'\in S}P(s'|s,a)v^{\pi_i}(s')$

$(15)$ 式被称为贝尔曼期望方程

Policy Improvement，策略提升
$\pi_{i+1}(s)=\arg\max\limits_{a}q^{\pi_i}(s,a)$

直到最终收敛

（凸函数局部最优能保证全局最优）

Value Iteration

直接对V进行迭代

具体来说
$q_{k+1}(s,a)\leftarrow R(s,a)+\gamma\sum\limits_{s'\in S}P(s'|s,a)v_k(s')$

$v_{k+1}(s)\leftarrow \max\limits_{a}q_{k+1}(s,a)$

由于价值函数是由策略决定的，因而在策略不定的时候上式并不是一个等号，只是通过不断迭代使其收敛

$(18)$ 式被称为贝尔曼最优方程

收敛性证明

有两个需要关注的疑问：如何保证这样迭代每次更优，如何保证迭代的收敛性呢？

这两个是一个问题，只需要保证每次更优，根据单调有界就能得到（证明在https://zhuanlan.zhihu.com/p/3927961）

基于压缩映射定理：

完备度量空间——满足柯西收敛准则

压缩映射： $d(f(x),f(y))\leq kd(x,y)$ ，其中d为度量，k为Lipschitz常数

考虑值函数空间 $V$ ，其中每个向量代表一个价值函数v，可以表示为在每个状态下的值，它是 $∣ S ∣$ 维的，定义度量为无穷范数——绝对值最大的那个分量。

$d(u,v)=\max\limits_{s}|u(s)-v(s)|$ ，容易知道它是完备的。

合并 $(12) (15)$ 式，贝尔曼期望方程可以写成矩阵形式
$v_{new}=T(v)=R^{\pi}+\gamma P^{\pi}v$
$R^{\pi},P^{\pi}$ 见 $(11)$ 式

只需要说明 $T$ 是一个压缩映射。推导略

对于贝尔曼最优方程是类似的

（不过貌似可以举出一些反例Bellman算子不是压缩映射）

最优性证明

有策略提升定理——每次策略迭代都会达到更优的结果。

3 Model-free Prediction and Control 无模型价值函数估计和预测

不管是策略迭代还是值迭代，都假设P和R是已知的，并且需要对所有的状态S进行估计

在实际情况中，许多MDP模型都无法全知/太过于复杂，状态数太多

一句话来说，就是转移方式是未知的。

回到最上面的图，没有了P

与环境的交互轨迹需要被记录

一个轨迹包括 ${S_1,A_1,R_1,S_2,A_2,R_2,...,S_T,A_T,R_T\}$

这里有点奇怪，根据下面的式子 $R_1$ 应该是 $R_2$

Model-free Prediction

蒙特卡洛方法：

进行若干次轨迹（直到终止）的采样，更新采样路径上所有的情况

学习方法：
$v(S_t)\leftarrow v(S_t)+\alpha(G_{i,t}-v(S_t))$
其中 $G_{i,t}$ 表示第i次采样中的第 $t$ 轮后的总回报， $\alpha$ 是某个步长，相当于一个学习率

若是平均值的话， $\alpha=1/N(S_t,A_t)$

注意蒙特卡洛是离线方法——先进行轨迹的采样，每次采样更新经过路径上所有的 $v$

Temporal-learning 时间差分方法：

对当前所在的 $S_t$ ，根据策略 $\pi$ 给出 $A_t$ ，观察 $R_t,S_{t+1}$
$v(S_t)\leftarrow v(S_t)+\alpha(R_{t+1}+\gamma v(S_{t+1})-v(S_t))$
基于现在已有的经验进行迭代，而不需要采样整个轨迹

可以发现TD方法的初始化很重要

TD方法是在线方法——只评估当前节点，采样一步

n-step TD：

上述方法的折中——从当前节点采样n步

Model-free Control

MC Policy Iteration

策略迭代方法与MDP的方法是一致的，不过在policy evaluation这一步采用蒙特卡洛方法估计 $v_{\pi}(S_t)$

另外在exploration 和 exploitation 之间trade-off ，对策略 $\pi$ 引入一定的随机性： $\epsilon$ -Greedy

有 $1-\epsilon$ 的概率贪心选择，有 $\epsilon$ 的概率在所有选项中随机选一个

依然能够推导出策略提升定理

Sarsa Algorithm

对 $Q(S_t,A_t)$ 进行预测，基本方法与TD是一样的

对于初始的 $S_t$ ，按照优化策略（如epsilon-贪心）选出一个 $A_t$ ，然后对每一步循环

每次观察采取行动 $A_t$ 得到 $R_t,S_{t+1}$ 是什么，再继续得到 $A_{t+1}$ ，持续下去直到结束
$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)]$
同样也有n-step Sarsa（修改 $(23)$ 式为后多少步的情况）

它是自更新的

Off-policy Learning

前面提到的都是On-policy Learning：通过对一个策略的实验结果来了解评估这个策略

另一个重要的方法是off-policy learning：

利用两个不同的策略——一个正在被学习，并且将成为最优化策略，另一个更加具有探索性，用于生成轨迹。

用来自另一个策略 $\mu$ 的采样轨迹评估策略 $\pi$ ， $\pi$ 被称为target policy， $\mu$ 是behavior policy

这有一些好处：

可以通过观察其他agent的轨迹来学习
可以充分利用先前的策略 $\pi_1...\pi_{t-1}$ 生成的轨迹

Q-Learning

对于每一个已有的轨迹 $S$

循环每一步， $A_t$ 是已知的（由生成S的那个策略决定）

再使用greedy的方法生成 $A_{t+1}$ 进行预测。
$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha[R_{t+1}+\gamma \max\limits_{a} Q(S_{t+1},a)-Q(S_t,A_t)]$
也就是说，在当前已知的局面，基于现在的价值函数Q（与生成轨迹时的Q可能不同）做出可能不同的尝试，进而更新Q

Importance Sampling 重要性采样

蒙特卡洛积分：

定积分是分割求和取极限，蒙特卡洛积分就是通过大量采样估计积分值。

直接均匀采样未必准确，因为可能积分值集中在少数峰值区域，或者说函数本身就是定义在某种分布 $P (x)$ 上的

应该在贡献大的地方多采一些，在贡献小的地方少采一些

估计结果会是这样
$\mathbb E_{x\sim P}[f(x)]=\int f(x)P(x)\text dx\leftarrow {1\over n}\sum\limits_{i} f(x_i)$
其中 $x_i$ 是按照 $P$ 采样的

但 $P$ 可能不太容易采样（这个分布可能比较奇怪）

引入一个接近P的概率分布 $Q (x)$ 进行采样

那么上式
$=\int f(x){P(x)\over Q(x)}Q(x)\text dx\leftarrow {1\over n}\sum\limits_{i} {P(x)\over Q(x)}f(x_i)=\mathbb E_{x\sim Q}\left[{P(x)\over Q(x)}f(x_i)\right]$

4 Value Function Approximation (VFA) 价值函数逼近

实际情况中很难获得准确值，由于状态数过多，问题过于复杂等等

在先前我们用一个lookup table来表示价值函数 $q (s, a)$ ，它的定义域是 $∣ S ∣ * ∣ A ∣$ 的

如何避免学习/存储每一个状态的信息呢

包括model, value function, state-action function, policy

换句话说，泛化性能不好，无法估计没有采样到的状态

Function Approximation

用函数逼近的办法（将函数参数化）
$\hat v(s,\mathbf w)\approx v^{\pi}(s)\\ \hat q(s,a,\mathbf w)\approx q^{\pi}(s,a)\\ \hat \pi(a,s,\mathbf w)\approx \pi(a|s)$

想利用插值的办法将没有出现过的状态也估计出来

疑惑：这个 $\mathbf w$ 是什么？可以理解成类似神经网络的参数。 $s, a$ 是输入

$\mathbf w$ 需要通过MC/TD不断学习的东西

几种不同的设计方法

如何拟合这些函数呢

参数线性组合
神经网络
决策树
Nearest neighbor

Focus on前两种，因为它们是differentiable 可微分的，可以利用梯度下降更新

以下默认梯度下降公式
$\Delta \mathbf w=-{1\over 2}\alpha\nabla_\mathbf w J(\mathbf w)$
其中 $J$ 为需要最小化的函数

用已知状态近似 Approximation with an “Oracle”

对于已知的少量状态 $s$ ，我们假设已知它们的 $v^{\pi}(s)$ （有监督），目标是找到一个最合适的逼近

一种简单的方法是利用均方差
$\mathbf w=\arg \min J(\mathbf w)=\arg\min\mathbb E\left[(v^{\pi}(s)-\hat v(s,\mathbf w))^2\right]$
再利用梯度下降更新 $\mathbf w$

首先定义一个状态的特征向量 Feature Vector
$\mathbf x(s)=(x_1(s),x_2(s),...,x_n(s))^T$
线性组合的方式就是
$\hat v(s,\mathbf w)=\mathbf x(s)^T\mathbf w=\sum\limits_{i=1}^{n}x_i(s)w_j$
容易知道梯度更新值为
$\Delta \mathbf w=\alpha(v^{\pi}(s)-\hat v(s,\mathbf w))\mathbf x(s)$
可以推广到神经网络

Approximation with Model-Free Prediction

实际情况中，我们并不知道 $v^{\pi}$ 的真实值

RL中只有来自环境的回报Reward，没有监督者Supervisor

回顾model-free prediction的过程

目标是估计在固定策略 $\pi$ 下的价值函数 $v^{\pi}$
维护一个lookup table存储 $v, q$ 的估计值
用若干个轨迹更新估计值（MC），或是每一步更新估计值（TD）

我们可以在这个过程中加入函数近似的步骤

在MC中，用 $G_{i,t}$ 替代 $v^{\pi}(S_t)$

在TD(0)中，用 $R_{t+1}+\gamma(\hat v(s_{t+1},\mathbf w))$ 替代

MC采样是无偏的（均值等于真实值）。在线性和非线性的 $v$ 均能收敛

TD方法是有偏的，因为更新基于当前的估计值不断迭代。在线性的 $v$ 能够收敛

要近似动作价值函数 $q$ ，对每个不同的 $a$ 使用均方差
$J(\mathbf w)=\mathbb E_\pi[(q^\pi(s,a)-\hat q(s,a,\mathbf w))^2]$

Control with funtion approximation

讲完预测部分，再讲控制部分（即优化策略的部分）

在控制过程也进行相应的替换

三种方式：MC、Sarsa、Q-Learning

以Sarsa为例描述算法步骤：

从某一个初始状态 $S$ 开始循环，选取初始行动 $A$
执行行动 $A$ ，观察 $R, S^{'}$
如果 $S^{'}$ 终止，那么R就是逼近目标，按照前面约定的逼近方式（线性组合，神经网络）更新 $\mathbf w$
否则按照优化策略（如epsilon-贪心）选出一个 $A^{'}$ ，逼近目标为 $R+\gamma\hat q(S',A',\mathbf w)$ ，（线性组合，神经网络）更新 $\mathbf w$
迭代循环

Deadly Traid 强化学习不稳定的死亡三角

潜在的不确定因素

Function approximation 函数近似，引入误差
Bootstapping，基于先前的估计来估计当前（自举），可能导致网络over confident
Off-policy training

课本11.3

是否保证收敛到最优价值函数——括号表示近似最优价值函数

Exp：Least Square Prediction 最小二乘预测

给出价值函数的线性近似 $\hat v(s,\mathbf w)\approx v^{\pi}$

经验 $D$ 由若干个 $< s t a t e, v a l u e >$ 的pairs描述
$\mathcal D=\{<s_1,v^{\pi}_1>,...,\}$
优化参数 $\mathbf w$ ，使得均方差最小。

用梯度下降法，以一个学习率 $\alpha$ 更新，每次更新随机选取D中的一个pair $<s,v^\pi>$ 进行学习
$\Delta \mathbf w=\alpha(v^\pi-\hat v(s,\mathbf w))\nabla_\mathbf w \hat v(s,\mathbf w)$
看起来非常Naive。

Deep Reinforcement Learning

函数的线性近似VS非线性近似

线性近似在选取正确的特征集时表现良好——在某个空间中是正交的

但需要手动设计这些特征

非线性近似拥有更强的拟合能力，能够直接从状态中学习，而不需要设计特征

非线性近似使用深度神经网络

Deep Q-Network DQN

用深度神经网络做动作价值函数的近似

DQN采用经验回放，固定的Q-targets（目标
$\Delta \mathbf w=\alpha(r+\gamma\max \limits_{a'}\hat Q(s',a',\mathbf w^-)-Q(s,a,\mathbf w))\nabla_\mathbf w \hat Q(s,a,\mathbf w)$
即目标中的 $\mathbf w^-$ 是一个固定的参数，从而目标Q也是固定的

用记录的所有转移 $(s, a, r, s^{'})$ 来学习，从转移中随机采样，通过MSE进行优化

还有一些改进方法

以Double DQN为例
$\Delta \mathbf w=\alpha(r+\gamma\hat Q(s',\arg\max\limits_{a'}Q(s,a',\mathbf w),\mathbf w^-)-Q(s,a,\mathbf w))\nabla_\mathbf w \hat Q(s,a,\mathbf w)$
用两个不同的网络将目标Q函数和动作选择分离。

5 Policy Optimization I 策略优化基础

Value Based RL vs Policy-based RL 基于策略的强化学习

先前我们的策略一般采用的是简单的根据价值函数贪心

我们可以将策略函数 $\pi$ 参数化， $\pi_\theta(a|s)$ ，其中$\theta $是可以学习的

相比于value-based，以策略为基础的RL没有价值函数，而是直接学习策略

Advantages:

更好的收敛性
策略梯度在高维空间更有效（？）
策略梯度可以学习随机策略

Disadvantages：

通常收敛到局部最优
评估一个策略的方差较大

在第一章中提过策略分为确定性策略和随机策略

在一些游戏中确定性策略是非常容易被击败的，如剪刀石头布，反而随机策略能达到纳什均衡

而在另一些情况下，由于agent不是全知的，可能出现在两个不同的情况下，感知到的是一样的，但最优决策是不同的，在这种情况下需要随机性。

如图，假设agent仅知道相邻格子，那么它是无法分辨两个灰色格子的。如果分别以50%的概率向左和向右，则无论从起点在哪里，期望到达目标的步数最小。

Objective of Optimizing Policy 策略优化目标

对于直接学习策略的RL，如何评价一个策略的好坏（假设已知一个价值函数 $V^{\pi_\theta}(s)$ ）

对于幕式环境 episodic environments，使用初始状态的价值函数期望值
$J_1(\theta)=V^{\pi_\theta}(s_1)=\mathbb E_{\pi_\theta}[v_1]$
对于持续的环境，可以使用平均状态价值
$J_{avV}(\theta)\sum\limits_{s}d^{\pi_\theta}(s)V^{\pi_\theta}(s)$
或者平均单步回报
$J_{avR}(\theta)=\sum\limits_{s}d^{\pi_\theta}(s)\sum\limits_{a}\pi_\theta(s,a)R(s,a)$
其中 $d$ 表示在该策略下，状态 $s$ 在马尔科夫链中的stationary distribution。

一个更明确的定义

$J(\theta)=\mathbb E_{\tau\sim\pi_\theta}[\sum\limits_{t}R(s_t^{\tau},a_t^{\tau})]\approx {1\over m}\sum\limits_{m}\sum\limits_{t}R(s_t^m,a^m_t)$

其中 $\tau$ 是根据策略 $\pi$ 的轨迹采样， $m$ 是采样编号

The Goal is
$\theta^*=\arg\max\limits_{\theta}\mathbb E_{\tau\sim\pi_\theta}[\sum_tR(s^\tau_t,a^\tau_t)]$
对 $J(\theta)$ 求argmax

如果 $J(\theta)$ 可微，则可以用梯度方法

梯度上升
共轭梯度
拟牛顿法

如果 $J(\theta)$ 不可微或者很难求梯度，那么一些无导数黑箱优化方法可以使用（将 $J(\theta)$ 看做黑箱）

交叉熵方法（根据某个分布撒点，再根据撒点结果调整分布，目标是最小化撒点得到的数据分布与实际分布的交叉熵）
- 对初始分布 $\mu$ 采样，得到若干个策略参数 $\theta$ ，根据这些参数得到策略函数，与环境进行交互，可取结果在前10%的参数出来，将 $\mu$ 对这几个进行极大似然估计得到新的分布。
爬山法
进化算法
Finite Difference 有限差分：
- 通过在第k维上细微扰动估计目标函数的第k维偏导
- 拉格朗日中值定理

Policy gradient

我们还尝试求 $\nabla_\theta \pi_\theta(s,a)$

严格来说应该写成 $\pi_\theta(a|s)$

注意到
$\nabla_\theta\pi_\theta(s,a)=\pi_\theta(s,a){\nabla_\theta\pi_\theta(s,a)\over \pi_\theta(s,a)}=\pi_\theta(s,a)\nabla_\theta\ln\pi_\theta(s,a)$

我们知道 $\pi_\theta(s,a)$ 是一个概率分布，此时 $\nabla_\theta\ln\pi_\theta(s,a)$ 称为score function

一些Policy Example

Softmax Policy——有限个Action+权重，权重由 $\theta$ 参数化，取exp，再算比例，得到一个概率分布
Gaussian Policy——连续的状态空间，均值是关于状态 $s$ ，被 $\theta$ 参数化的函数，方差也可以参数化，服从高斯分布

One step MDPs

考虑一个简单的单步MDP：

从一个随机状态出发，状态 $s$ 的分布为 $d (s)$
在一步之后结束，回报 $r = R (s, a)$

$J(\theta)=\mathbb E_{\pi_\theta}[r]=\sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(s,a)r$
计算梯度得（利用前面的Trick， $(43)$ 式）
$\nabla_\theta J(\theta)=\sum_{s\in S}d(s)\sum_{a\in A}\pi_\theta(s,a)\nabla_\theta\ln\pi_\theta(s,a)r=\mathbb E_{\pi_\theta}[r\nabla_\theta\ln\pi_\theta(s,a)]$

Multi-step MDPs

对于多部MDP

每幕都服从

$\tau =(s_0,a_0,r_1,...,s_{T-1},a_{T-1},r_{T},s_T)\sim (\pi_\theta,P(s_{t+1}|s_t,a_t))$

这样的分布，设 $R(\tau)=\sum r_t$ ，那么目标函数为
$J(\theta)=\mathbb E_{\pi_\theta}[R(\tau)]=\sum_{\tau}P(\tau;\theta)R(\tau)$
要优化 $\theta$ ，即取argmax

计算梯度
$\nabla_\theta J(\theta)=\nabla_\theta\mathbb E[R(\tau)]=\sum_\tau P(\tau;\theta)R(\tau)\nabla_\theta\ln P(\tau;\theta)$
注意到
$\ln P(\tau;\theta)=\ln(\mu(s_0)\prod\pi_\theta(a_t|s_t)p(s_{t+1}|s_t,a_t))$
取对数以后就是加和（这就是取ln的意义所在），再对 $\theta$ 求梯度后只剩下 $\pi_\theta$ 项，即
$\nabla_\theta \ln P(\tau;\theta)=\sum_{t=0}^{T-1} \nabla_\theta \ln\pi_\theta(a_t|s_t)$
利用MC的方法，采样采了 $m$ 幕， $\tau_1,...,\tau_m$

关键在于环境转移是未知的，即 $p$ 未知，我们只有采样结果，那么就无法计算出准确的 $P$ ，但我们可以按照 $\pi$ 进行采样，得到的结果是服从这一分布的，那么便有
$\nabla_\theta J(\theta)\approx{1\over m}\sum_{i=1}^m R(\tau_i)\nabla_\theta\ln P(\tau_i;\theta)={1\over m}\sum_{i=1}^mR(\tau_i)\sum_{t=0}^{T-1} \nabla_\theta \ln\pi_\theta(a_t|s_t)$
再利用 $(49)$ 式化为只含 $\pi$ 的项，是可以计算的，这样就与环境无关了，从而可以利用梯度方法优化 $\theta$ 。

（似然——likelihood，即可能性）

与最大似然估计进行对比：最大似然没有 $R$ 这一项权重——我们认为表现越好的越可能出现。这可以理解成一种加权的最大似然估计

Reduce the variance of policy gradient

由于前面几条式子可以看出，策略梯度方法是无偏的，但噪声很大

考虑 $(50)$ 式继续化，把 $R$ 也按步拆开
$={1\over m}\sum\limits_{i=1}^m\left(\sum_{t'=1}^T r_{t'}\right)\left(\sum_{t=0}^{T-1}\nabla_\theta \ln\pi_\theta(a_t|s_t)\right)$
当按步拆开来时，注意到前面的reward的后面的步骤的似然是没有关系的—— $r_1$ 与 $\pi_\theta(a_2|s_2)$ 显然无关。那么把这一层时序关系引入应当是不改变结果的，即 $(47)$ 式还等于
$\nabla_\theta J(\theta)=\nabla_\theta\mathbb E[R(\tau)]=\sum_\tau P(\tau)\sum_{t'=1}^T r_{t'}\sum_{t=0}^{t'-1}\nabla_\theta\ln \pi_\theta(a_t|s_t)=\sum_\tau P(\tau)\sum_{t=0}^{T-1} G_t \nabla_\theta\ln \pi_\theta(a_t|s_t)$
$(52)$ 式同样可以写成采样平均的形式，这里不再赘述。

去掉了无关项，减小了方差

REINFORCE Algorithm

基于MC方法

输入approximator $\pi(a|s,\theta)$ （这即是说，如何近似策略函数是人为设计的），初始化 $\theta$

不断循环，每次生成一幕，按步循环，根据 $(52)$ 式，可以用一个学习率 $\alpha$ 不断更新每一步的增量—— $(52)$ 式本身就是对一幕里每一步求和。

即
$θ=θ+α∇_θ\logπ_θ(s_t,a_t)G_t$

Using Baseline

抽象出一个baseline作为基准，从而减小方差

$(52)$ 式化为
$=\sum_\tau P(\tau)\sum_{t=0}^{T-1} (G_t-b(s_t)) \nabla_\theta\ln \pi_\theta(a_t|s_t)$
可以减去 $b(s_t)$ 的原因是 $b(s_t)$ 与幕无关，那么按照 $s_t$ 相同的对所有幕合并同类项，和为1，求梯度为0.

对一个状态 $s$ 提出预期，根据 $G_t$ 比预期好多少来增加行动的比例

方差大的原因是 $G_t$ 由采样得到，本身方差很大（以绝对大小来作为权重更新梯度不合适）

自然地，一个好的 $b(s_t)$ 应当等于 $\mathbb E[G_t]$

Actor-critic Policy gradient

Actor：策略函数，生成动作

Critic：价值函数，评估动作

同时做两组近似： $\pi_\theta(s,a),Q_\mathbf w(s,a)$ ，类似于TD方法。

一直循环下去，每次通过采样 $s, a, r, s^{'}, a^{'}$ ，以线性估计为例（ $Q(s,a)=\psi(s,a)^T\mathbf w$

第四步的来源是 $(32)$ 式，第五步则是Policy gradient优化

（与REINFORCE算法不同点就在于 $G_t$ 也是通过近似，不断自学习得到，而不是通过MC采样得到）

Reducing the variance of Actor-critic

对于每个状态 $s$ ，同样设一个Baseline $V_{\pi,\gamma}(s)$ ，理由与之前baseline是一样的，这个V也可以通过另一套参数近似得到

因而价值函数 $V^{\pi}(s)=\mathbb E_{a\sim \pi}[Q(s,a)]$ 是一个天然的baseline

那么对于 $\theta$ 的更新式就改为

其中 $A$ 是 $Q (s, a) - V (s)$ ，Advantage Function 优势函数

Advantage Actor-Critic

注意到对TDerror取期望后有
$\mathbb E_{\pi_\theta}[\delta^{\pi_\theta}|s,a]=\mathbb E[r+\gamma V^{\pi_\theta}(s')|s,a]-V^{\pi_\theta}(s)\\=Q(s,a)-V(s)\\=A^{\pi_\theta}(s,a)$
解释上式：本来TD error是 $Q (s^{'}, a^{'})$ ，取了期望以后变成 $V (s^{'})$ ，加上 $r$ 变成 $Q (s, a)$

那么梯度值里的A就可以替换成TD error $\delta$ ，

我们此时便不需要对 $a^{'}$ 进行采样，直接用 $V (s^{'})$ 代替 $Q (s^{'}, a^{'})$ ，将更新过程变成bootstrapping过程，只需要去近似 $V$ 即可（只需要一套参数就够了），这也提高了训练的稳定性。

在先前讲过TD方法可以拓展到n-step，进而变成MC

对于Critic而言，根据不同的时间尺度，得到不同的G，进而用梯度方法更新 $V$ ，以线性方法为例

对于Actor也是类似， $\nabla J(\theta)$ 有不同的表达形式

6 Policy Optimization II State of the Art 策略优化进阶前沿算法

Value-based vs Policy-based

在value-based中，策略通常直接采用贪心/epsilon-贪心

在策略优化中，我们直接去得到策略 $\pi_\theta(a|s)$ ，这是一个概率分布，从这个分布中采样得到Action。优化目标是 $J(\theta)=\mathbb E[R(\tau)]$ ，可以用之前提到的一系列步骤（取对数、利用MC/TD）得到梯度

Summary of Policy gradient Algorithm 策略梯度算法小结

The State of Art RL Methods 前沿RL方法

两条线：

Policy gradient（训练不够稳定）——Natural Policy gradient/TRPO——ACKTR——PPO

Q-learning——DDPG——TD3——SAC

Policy gradient 改进

Problems of PG 存在的问题

Poor Sample Efficiency as PG is on-policy learning 采样效率低（不能学习他人经验），只能用自己的轨迹进行学习
过大的policy更新或者不恰当的step size会导致整个训练过程崩溃
- 与supervised Learning（样本之间的关联性很弱，噪声影响没那么大）有很大不同
- 策略本身对数据影响很大。只要一步太大，导致了坏策略，那么也会采集到很坏的数据。很难从错误的Policy中恢复

上述问题如何解决？

如何让训练更稳定？Trust region （保证梯度一个安全的较小区域内）and natural policy gradient。
如何变成off-policy？TRPO方法中引入重要性采样

Natural Policy Gradient

Policy Gradient 是在欧式度量下参数空间(parameter space) 上升最快的方向。形式化地
$d^*=\nabla _\theta J(\theta)=\lim_{\epsilon\to 0}{1\over \epsilon} \arg\max J(\theta+d),s.t.||d||\leq \epsilon$
$d^*$ 对策略函数的拟合方式非常敏感（高斯拟合？softmax？）

换句话说，由于 $\pi_\theta$ 是一个概率分布，梯度更新后的 $\pi_\theta$ 未必能够更加得到更加优秀的结果，这个结果和参数更新没有联系起来。

因此我们提出了另一种方法：在distribution space(policy output)中优化它
$d^*=\arg\max J(\theta+d),s.t. KL(\pi_\theta||\pi_{\theta+d})=c$
衡量两个策略的近似距离不再采用参数空间欧式距离（因为参数空间欧氏距离小不能推出策略之间更接近），而是采用它们的KL散度，要求它等于一个较小的常数。

固定KL散度保证了在策略在distribution space中移动的速度恒定，与曲率没有关系（啥意思？）。

补充：概率论相关

来自Blog：https://www.jianshu.com/p/0123c6ee18c3

信息量：消除了多少不确定性。“概率为 $p$ 的事件发生” 包含多少信息？

应该满足

$S (1) = 0$ ，必然事件发生没有任何信息
$S (p)$ 随着 $p$ 递减，概率越大的事件发生，信息越少
$p, q$ 独立，那么 $S (p q) = S (p) + S (q)$

直觉告诉我们可以这样定义—— $S(p)=-\log p$ ，当底取 $2$ 时 $S (p)$ 的单位为比特——一个p=0.5的二项分布信息量为1 bit。

信息熵

假定一个随机变量 $X$ ，可能取值为 $x_1,...,x_n$ ，概率为 $P(x_i)$

采样得到了一个值，它的平均信息量？每种取值概率乘以信息，即
$H(X)=-\sum_{i=1}^nP(x_i)\log P(x_i)$
定义为X的信息熵。

当离散型变为连续型，概率变为概率密度函数时，把求和换成积分也是一样的。

编码定理

通信中的编码：随机变量 $X$ ，有n种取值，分别有概率，要设计一个编码系统将取值二进制编码，要求满足任一个编码不能是另一个的前缀。（直观来说，若建一棵Trie，任意一个不能是另一个的祖先）

设第 $i$ 种取值编码长度为 $n_i$ ，则编码必有解的充要条件为
$\sum\left(1\over 2\right)^{n_i}\leq 1$
证明是简单的，把 $2^{n_i}$ 乘到右边去，考虑解的情况。

无噪声编码定理：编码期望码长不小于信息熵。

字符 $x$ 的编码长度实际上就是 $log P(x_i)$ 上取整

进而可以证明误差不超过1。

KL-Divergence

KL散度（相对熵）用来衡量两个分布之间的相关度和近似程度

对于一个随机变量，一个是预估概率 $P$ ，一个是实际概率 $Q$ ，那么根据编码的最优性（利用Jensen不等式和对数函数的上凸性证明），这样的期望码长会多一些，即
$-\sum_{i=1}^nP(x_i)\log Q(x_i)\geq -\sum_{i=1}^{n}P(x_i)\log P(x_i)$
移项得到一个非负量
$\sum_{i=1}^nP(x_i)\log {P(x_i)\over Q(x_i)}\ge 0$
即
$KL[P||Q]=\mathbb E_p[\log P]-\mathbb E_p[\log Q]$
在连续情况下是积分形式。

上式称为分布P(X)和Q(X)的KL散度，实际意义为平均每个字符多用的比特数。

KL散度并不是一个度量——不满足三角不等式，也不对称。但当 $d$ 足够小时，可以近似的认为是对称的。

续 Natural Policy Gradient

我们要求 $KL[\pi_\theta|\pi_{\theta+d}]=c$ ，但是KL散度计算并不容易

利用 $(62)$ 式进行Taylor展开（过程不会x）

得到
$c=KL[\pi_\theta|\pi_{\theta+d}]\approx {1\over 2}d^TFd$
其中 $F$ 为KL散度的二阶导，也是Fisher信息矩阵，
$F=\mathbb E_{\pi_\theta}[\nabla\log \pi_\theta\nabla \log \pi_\theta^T]$
要优化 $(57)$ 式，利用拉格朗日乘数法
$d^*=\arg\max_d \left(J(\theta+d)-\lambda(KL(\pi_\theta||\pi_{\theta+d})-c)\right)$
$J(\theta+d)$ 用一阶Taylor公式近似，KL散度用之前的近似
$\approx \arg\max_d \left(J(\theta)+\nabla_\theta J(\theta)^Td-{1\over 2}\lambda d^TFd+\lambda c\right)$
把与 $d$ 无关的项去掉，对 $d$ 求导，取极值点
$\nabla_\theta J(\theta)^T-\lambda Fd=0\Longrightarrow d={1\over \lambda} F^{-1}\nabla_\theta J(\theta)$
这被称作Natural Policy Gredient 自然梯度。

自然梯度方法是一种二阶优化，更加精确，而且不论模型是如何参数化的，自然梯度方法均有效。（model invariant）无论参数本身变化多大，模型的变化都是限制在一定范围内的。

$\lambda$ 并不需要实际得到，我们可以用一个学习率 $\alpha$ 替换 $1\over \lambda$ ，
$\theta_{t+1}=\theta_t+\alpha F^{-1}\nabla_\theta J(\theta)$

Fisher 信息矩阵 F衡量了策略相对于模型参数 $\theta$ 的曲率
注意我们并没有解出一个精确的解，由于使用了TayLor公式近似，我们需要保证d比较小。而学习率对更新的影响是会随着度量变化而变化的.

还可以继续推导——联立 $(67) (63)$ ，代入解得
$\alpha=\sqrt{2c\over D^TF^{-1}D}$
其中 $D=\nabla_\theta J(\theta)$

那么
$\theta_{t+1}=\theta_t+\sqrt{2c\over D^TF^{-1}D} F^{-1}D$
注意到这里的 $c$ 是直接限制在KL散度下，不受D，F的尺度的影响，相当于对学习率进行了标准化。

Policy Gredient with Importance Sampling

可以通过重要性采样将PG从on-policy变成off-policy的——可以用别的轨迹进行学习

假设一个轨迹服从策略 $\hat\pi$

我们可以这样
$J(\theta)=\mathbb E_{a\sim \pi_\theta}[R_t]=\mathbb E_{a\sim \hat\pi}\left[{ \pi_\theta(a_t|s_t)\over \hat\pi(a_t|s_t)}R_t\right]$

这里的 $t$ 可能是任何一步，只要乘上在这个分布下这一步出现的概率即可（对整个状态空间求和然后平均）

直接利用过去的轨迹进行学习

两个概率相除结果太大怎么办？

利用KL散度进行限制

TRPO Trust Region Policy Optimization

另一个问题是， $F^{-1}$ 需要矩阵求逆，计算复杂度较大，注意到 $F^{-1}D$ 总是作为整体出现，我们有
$x=F^{-1}D,Fx=D$
相当于
$x=\arg\min_x{1\over 2}x^TFx-D^Tx$
因为上式对 $x$ 求导恰好是 $F x - D$ （F是正定矩阵，因而也是对称的，所以 $F^{T}=F$ ）