强化学习课程知识点总结

Omigeq

已于 2024-01-06 01:28:25 修改

阅读量610

点赞数 12

分类专栏：笔记文章标签：人工智能机器学习

于 2024-01-06 01:27:08 首次发布

本文链接：https://blog.csdn.net/Omigeq/article/details/135420541

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本总结是本人复习《强化学习》课程，准备其考试时自己手打的总结，主要是罗列重要概念。不保证系统性、准确性和时效性，仅用于应试，因追求精简而省略了很多内容，如需系统学习请使用正式教材。

CH1 介绍

1.1 RL问题描述

观点1 强化学习就是学习“做什么”才能使得数值化的收益最大化。

观点2 强化学习是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

特点

没有监督者，只有收益信号
延时收益
数据是按时间连续的，不独立同分布
智能体的行动有长期效应，会影响之后接收的数据

1.2 RL基本概念

1.2.1 智能体与环境

每个步骤 $t$

智能体（Agent）

执行动作（Action） $A_t$
获取观测信息（Observation） $O_t$
获取标量收益/奖励（Reward） $R_t$

环境（Environment）

接受动作 $A_t$
给出观测信息 $O_t$
给出标量收益/奖励 $R_t$

1.2.2 历史与状态

历史（History） 包含过去智能体获取的信息、收益和动作， $H_t=O_1,R_1,A_1,...,A_{t-1},O_t,R_t$ 。

状态（State） 包含接下来发生什么的信息， $S_t=f(H_t)$ 。

状态分为环境状态和智能体状态，分别为环境和智能体的内部私有状态。环境状态用以决定智能体的下一个观测或收益，对智能体通常是不可见的。智能体状态用以决定智能体的下一个动作，与历史 $H_t$ 构成函数 $S^a_t=f(H_t)$ 。

信息状态（又称马尔可夫状态）包含历史中所有有用的信息。

一个状态 $S_t$ 拥有马尔可夫性（Markov Property），当且仅当满足公式 $P[S_{t+1}|S_t]=P[S_{t+1}|S_1,...,S_t]$ 。也就是说，未来在给定当前状态的条件下，和过去无关。状态中包含了预测未来的足够信息，一旦已知当前状态，过去的信息就可被丢弃。环境状态 $S^e_t$ 和历史 $H_t$ 都具有马尔可夫性。

完全可观测：智能体可以直接观测环境状态，即 $O_t=S^a_t=S^e_t$ ，信息状态=智能体状态=环境状态。通常，这是一个马尔可夫决策过程（Markov Decision Process，MDP）。

部分可观测：智能体只能获取环境一部分信息。通常，这是一个部分可观测马尔可夫决策过程（Partially observable Markov decision processes，POMDP）。智能体必须构造自己的状态表示 $S^a_t$ 。

1.2.3 学习与规划

学习（Reinforcement Learning）

环境最初未知
智能体与环境交互
智能体改善行为策略

规划（Planning）

环境如何工作对智能体已知
智能体不与环境发生实际交互
利用构建的模型计算，在此基础上改善行为策略

1.2.4 探索与利用

探索/试探（Exploration）：去发现是否还有更好的获得收益的策略。

利用/开发（Exploitation）：使用当前已知的获得最大化收益的策略。

1.2.5 预测与控制

预测（Prediction）：给定一个策略，对未来进行评估，即策略评估。

控制（Control）：找到最优策略，对未来进行优化，即策略迭代。

1.3 RL智能体

1.3.1 组成成分

一个RL智能体组成成分有

策略（Policy）：决定智能体行为的机制。策略是状态到行为的一个映射，可以是确定性的，也可以是不确定性的。
价值函数（Value Function）：一个未来收益的预测，用于平均当前状态的好坏程度。当面对两个不同状态，智能体可以用价值函数来评估状态，指导选择不同行为，即制定不同策略。
模型（Model）：智能体对环境的建模。模型可以预测环境接下来会发生什么，仅针对智能体而言，环境实际运行机制不称为模型，而称为环境动力学（Dynamics of Environment）。

1.3.2 分类

RL智能体的分类有

基于价值函数的智能体：有状态价值估计函数，但无直接策略函数。
直接基于策略的智能体：行为直接由策略函数产生，个体不维护状态价值估计函数。
演员-评委（Actor-Critic）形式：有价值函数也有策略函数。

另一种分类方法是

无模型（Model-Free）的智能体：不了解环境如何工作，仅关注价值或策略函数。
基于模型（Model-Based）的智能体：建立描述环境的模型，指导价值或策略函数的更新。

CH2 马尔科夫决策过程（MDP）

2.1 马尔可夫过程

随机过程 $X (t)$ ：一组依赖于实参数 $t$ 的随机变量， $t$ 一般具有时间的含义。随机过程 $\{X(t),t\in T\}$ 可能取值的全体所构成的集合称为此随机过程的状态空间，记作 $S$ 。

状态转移矩阵 $P$ ：定义了从所有状态 $S$ 到所有后续状态 $S^{'}$ 的转移概率。对于具有马尔可夫性的状态和后续状态，有 $P_{ss'}=P[S_{t+1}=s'|S_t=s]$ ，矩阵 $P$ 每行概率之和为1。

马尔可夫链：无记忆（即具有马尔可夫性）的随机过程，即一系列随机状态 $S_1,S_2,...$ 。马尔可夫链是包含 $< S, P >$ 的元组，其中 $S$ 是有限状态集， $P$ 是状态转移矩阵。

马尔可夫链是马尔可夫过程（Markov Process，MP） 的一个特例，专门处理在离散时间点和离散或可数状态空间中的随机过程。而MP是一个更广泛的概念，包括在连续时间或连续状态空间中的随机过程。下面所讲的MRP和MDP通常都是在离散语境下定义的。

2.2 马尔可夫收益过程

收益函数 $R$ ：一个与状态或状态转移关联的收益， $R_s=E[R_{t+1}|S_t=s]$ 。

马尔可夫收益过程（Markov Reward Process，MRP） ：一个带有状态价值的马尔可夫链。MRP是包含 $<S,P,R,\gamma>$ 的元组，其中 $S$ 是有限状态集， $P$ 是状态转移矩阵， $R$ 是收益函数， $\gamma$ 是折扣率。

折扣（discount） $\gamma \in [0,1]$ ：未来收益的当前价值。

回报（Return） $G$ ：从 $t$ 时刻开始到结束的总折扣收益，也叫作累计收益， $G_t=\sum^{\infin}_{k=0}\gamma^k R_{t+k+1}$ 。

状态价值函数（State-Value Function） $V (s)$ ：状态 $s$ 回报的期望， $v(s)=E[G_t|S_t=s]$ 。

贝尔曼方程（Bellman Equation） ：提供了一种递归的方式来分解决策问题。它将价值函数分成两部分，立即收益 $R_{t+1}$ 和后续状态的折扣回报 $\gamma v(S_{t+1})$ ，得

$v(s)=E[R_{t+1}+\gamma v(S_{t+1})|S_{t+1}=s]$ ；
$v(s)=R_s+\gamma \sum_{s'\in S}{P_{ss'}v(s')}$
用矩阵形式表示为 $v=R+\gamma Pv$ ；
贝尔曼方程是一个线性方程，可以直接被解出来 $v=(1-\gamma Pv)^{-1}R$ ，复杂度为 $O(n^3)$
间接解法有动态规划、蒙特卡洛评估和时间差分学习等。

2.3 马尔可夫决策过程

马尔可夫决策过程（Markov Decision Process，MDP） 在MRP基础上添加了决策。MDP是包含 $<S,A,P,R,\gamma>$ 的元组，其中 $S$ 是有限状态集， $A$ 是有限动作集， $P$ 是状态转移矩阵， $R$ 是收益函数， $\gamma$ 是折扣率。

策略 $\pi$ ：在给定状态条件下动作集上的分布 $\pi(a|s)=P[A_t=a|S_t=s]$ 。MDP策略依赖于当前状态而不是历史，完全定义了智能体的行为，是平稳的，独立于时间。

若给定一个MDP $<S,A,P,R,\gamma>$ 和一个策略 $\pi$

状态序列 $S_1,S_2,...$ 是一个MP $<S,P^{\pi}>$ ；
状态和收益序列 $S_1,R_2,S_2,R_3,...$ 是一个MRP $<S,P^{\pi},R^{\pi},\gamma>$ ;
$P^{\pi}_{ss'}=\sum_{a\in A}\pi(a|s)P^a_{ss'}$ ；
$R^{\pi}_{s}=\sum_{a\in A}\pi(a|s)R^a_{s}$ 。

MDP的状态价值函数： $v_{\pi}(s)=E_{\pi}[G_t|S_t=s]$ 。

动作价值函数（Action-Value Function） $q_{\pi}(s,a)$ ：从状态 $s$ 开始，采取动作 $a$ ，然后遵循策略 $\pi$ 的预期回报， $q_{\pi}(s,a)=E_{\pi}[G_t|S_t=s,A_t=a]$ 。

贝尔曼期望方程（Bellman Expectation Equation） 表达了在某个策略下，当前状态或状态-动作对的期望价值

分解状态价值函数得 $v_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma v_{\pi}(S_{t+1})|S_t=s]$ ；
分解动作价值函数得 $q_{\pi}(s,a)=E_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a]$ ；
这两者之间的关系 $v_{\pi}(s)=\sum_{a\in A} \pi(a|s) q_{\pi}(s,a)$ ；
另一种关系描述 $q_{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}{P^a_{ss'}v_{\pi}(s')}$ ；
由3和4推得另一种关于 $v_{\pi}$ 的贝尔曼期望方程 $v_{\pi}(s)=\sum_{a\in A} \pi(a|s)(R^a_s+\gamma \sum_{s'\in S}{P^a_{ss'}v_{\pi}(s')})$ ；
由3和4推得另一种关于 $q_{\pi}(s,a)$ 的贝尔曼期望方程 $q_{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}{P^a_{ss'}\sum_{a\in A} \pi(a|s) q_{\pi}(s,a)}$ ；
矩阵形式 $v_{\pi}=R^{\pi}+\gamma P^{\pi}v_{\pi}$ ；
直接解为 $v_{\pi}=(1-\gamma P^{\pi})^{-1}R^{\pi}$ 。

最优价值函数特指MDP中可能的最佳性能，当知道了最优价值函数，一个MDP问题就被解决了

最优状态价值函数 $v_*(s)$ ：从所有策略中选出的最大状态价值函数， $v_*(s)=\mathop{\max}_{\pi}v_{\pi}(s)$ 。
最优动作价值函数 $q_*(s,a)$ ：从所有策略中选出的最大动作价值函数， $q_*(s,a)=\mathop{\max}_{\pi}q_{\pi}(s,a)$ 。

策略的偏序 $\pi > \pi'\iff v_{\pi}>v_{\pi'}(s),\forall s$ 。对于任何MP，一定存在一个最优策略 $\pi^*$ 满足 $\pi^*\ge\pi,\forall \pi$ 。所有最优策略必符合最优价值函数，即 $v_{\pi^*}(s)=v_*(s)$ 。所有最优策略必符合最优动作价值函数，即 $q_{\pi^*}(s,a)=q_*(s,a)$ 。

任何MDP都有一个确定的最优策略。如果知道 $q_*(s,a)$ ，则立即得到最优策略。一个最优策略可以通过最大化 $q_*(s,a)$ 来寻找：

$\pi_*(a|s) = \begin{cases} 1 & \text{if } a=\mathop{\arg\max}_{a \in A} q_*(s,a) \\ 0 & \text{otherwise} \end{cases}$

贝尔曼最优方程（Bellman Optimality Equation） 用于找到最优策略，它表达了在最优策略下的状态价值或动作价值与未来可能价值之间的关系。最优价值函数通过贝尔曼最优方程递归关联：

$v_*(s)=\max_{a \in A}q_*(s,a)$
$q_*(s,a)=R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}v_*(s')$
$v_*(s)=\max_{a \in A}\{R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}v_*(s')\}$
$q_*(s,a)=R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}\max_{a \in A}q_*(s',a')$
贝尔曼最优方程不是线性方程，一般来说无闭式解，间接解法有价值迭代、策略迭代、增强学习和SARSA算法等。

CH3 动态规划

3.1 介绍动态规划

动态规划（Dynamic Programming，DP） 算法是解决复杂问题的一个（类）方法（思想），算法通过把复杂问题分解为子问题，通过求解子问题进而得到整个问题的解。在解决子问题的时候，其结果通常需要存储起来被用来解决后续复杂问题，通常是以空间换时间。

3.2 策略评估

同步反向迭代：对于第 $k + 1$ 次迭代，所有状态 $s$ 的价值用 $v_{k}(s')$ 计算并更新 $v_{k}(s)$ 。

迭代法策略评估：同步反向迭代应用贝尔曼期望方程解决预测问题

应用贝尔曼期望方程 $v_{k+1}(s)=\sum_{a\in A} \pi(a|s)(R^a_s+\gamma \sum_{s'\in S}{P^a_{ss'}v_{k}(s')})$ ;
矩阵形式 $v^{k+1}=R^{\pi}+\gamma P^{\pi}v^{k}$ ;
在当前策略基础上，贪心地选取行为，使得后续状态价值增加最多， $\pi'=\text{greedy}(v_{\pi})$ ，反复多次，总能收敛至最优策略 $\pi^*$ ；
这种基于 $v (s)$ 的贪心策略提升需要MDP模型。

3.3 策略迭代

策略改善定理：通过贪心计算优化策略，迭代改善状态 $s$ 的 $q$ 值

$\pi'(s)=\mathop{\arg\max}_{a\in A}q_{\pi}(s,a)$ ；
$q_{\pi}(s,\pi'(s))=\mathop{\max}_{a\in A}q_{\pi}(s,a)$ ；
当 $q_{\pi}(s,\pi'(s))=q_{\pi}(s,\pi(s))=v_{\pi}(s)$ 时，满足贝尔曼最优方程 $v_{\pi}(s)=\mathop{\max}_{a\in A}q_{\pi}(s,a)$ ，此时 $\pi$ 就是最优策略；
基于 $q (s, a)$ 的贪心策略提升不需要MDP模型；
修饰过的策略迭代可以设置一些条件提前终止迭代，设定 $\epsilon$ 最小差值；设置迭代次数；每迭代一次更新一次策略（值迭代）等。

3.4 价值迭代

最优策略可被分解为两部分

从状态 $s$ 到后继状态 $s^{'}$ 采取了最有行为 $A_*$ ;
在状态 $s^{'}$ 时遵循最优策略。

最优性定理：一个策略能使状态 $s$ 获得最优价值，当且仅当：对于从状态 $s$ 出发，任意可达的状态 $s^{'}$ ，该策略能使状态 $s$ 的价值是最优价值。

确定性的价值迭代：

如果知道子问题 $v_*(s')$ 的解，就可找到 $v_*(s)\gets\mathop{\max}_{a\in A}(R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}v_*(s'))$ ，迭代地应用这些更新，从最后的收益开始反向工作；
与策略迭代不同，价值迭代算法不会给出明确策略，得到的价值函数不对应任何策略；
应用贝尔曼最优方程 $v_{k+1}(s)=\mathop{\max}_{a\in A}(R^a_s+\gamma\sum_{s'\in S}P^a_{ss'}v_*(s'))$ ；
矩阵形式 $v_{k+1}=\mathop{\max}_{a\in A}(R^a+\gamma P^av_k)$ 。

CH4 无模型预测

4.1 蒙特卡洛强化学习

蒙特卡洛法（Monte Carlo, MC） 的特点：

从经验Episode学习状态价值
无模型方法，不知道MDP当中的转移或收益
使用完整的Episode数据，无“自举”
用平均回报代替价值
只能用于Episode MDP，即每一Episode必然会终结

MC策略评估：

从一系列完整的Episode经历学习到给定策略 $\pi$ 下的状态价值函数 $v_{\pi}$ ， $S_1,A_1,R_2,...,S_k\sim\pi$ ；
用经验平均回报代替期望回报 $v_{\pi}(s)=E_{\pi}[G_t|S_t=s]$ ；
首次访问MC策略评估仅当状态 $s$ 第一次出现时列入计算；
每次访问MC策略略评估状态 $s$ 每次出现在状态转移链时计算；
用增量式方法更新平均值，在经历每个完整的Episode后 $N(S_t)\gets N(S_t)+1$ ， $V(S_t)\gets V(S_t)+\frac{G_t-V(S_t)}{N(S_t)}$ ；
记 $N(S_t)$ 为 $\alpha$ ，得 $V(S_t)\gets V(S_t)+\alpha(G_t-V(S_t))$ 。

4.2 时序差分学习

时序差分法（Temporal Difference，TD） 的特点：

从经验Episode学习状态价值；
无模型方法，不知道MDP当中的转移或收益；
可以从不完整的Episode数据学习，通过“自举”；
利用猜测的Episode的结果更新猜测；
估计某状态价值时 $V(S_t)\gets V(S_t)+\alpha(R_{t+1}+\gamma V(S_{t+1})-V(S_t))$ ；
$R_{t+1}+\gamma V(S_{t+1})$ 称为TD目标值；
$\delta_t=R_{t+1}+\gamma V(S_{t+1})-V(S_t)$ 称为TD误差。

4.3 比较MC与TD

MC和TD的优劣势：

TD在知道结果前可学习（TD可在每步后在线学习，MC必须等到最后结果才能学习）；
MC无偏差，但有较高方差，对初始值不敏感，而TD低方差，但有一定偏差，对初始值较敏感，通常比MC高效；
TD用了MDP问题的马尔可夫性，而MC没有用，TD在Markov环境更有效，MC在非Markov环境更有效；
两者都涉及采样，但DP不涉及采样；
MC没有自举，TD和DP有自举。

确定性等价评估：

MC试图收敛至一个最小化状态价值与实际回报的均方差 $\sum^{K}_{k=1}\sum^{T_k}_{t=1}(G^k_t-V(s^k_t))^2$ ；
TD试图收敛至一个根据已有经验构建的最大可能的马尔可夫模型的状态价值。

4.4 TD( $\lambda$ )

TD或TD(0)是基于1步预测的，MC是基于 $\infin$ 步预测的。

n步回报： $G^{(n)}_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1}R_{t+n}+\gamma^nV(S_{t+n})$ 。

n步TD学习： $V(S_t)\gets V(S_t)+\alpha(G^{(n)}_t-V(S_t))$ 。

$\lambda$ 回报： $G^{\lambda}_t=(1-\lambda)\sum^{\infin}_{n=1}\lambda^{n-1}G^{(n)}_t$ 。 $\lambda=0$ 时，退化成TD(0)； $\lambda=1$ 时，退化成MC。

资格迹： $E_0(s)=0$ ； $E_t(s)=\gamma \lambda E_{t-1}(s)+1(S_t=s)$ 。

前向视角TD( $\lambda$ )：面向 $\lambda$ 回报更新值函数。

反向视角TD( $\lambda$ )：对每个状态 $s$ 保持一个资格迹，更新 $V (s)$ ，与TD误差 $\delta_t$ 和资格迹 $E_t(s)$ 成比例。

前向视角和反向视角TD( $\lambda$ )在线等价，离线更新总和相同，更新在episode中每一步都在线应用并累积，在episode结束时批量应用。

CH5 无模型控制

5.1 基本概念

同策（On-Policy）学习：目标策略和采样策略相同。

异策（Off-Policy）学习：目标策略与采样策略不同。

为什么异策学习很重要？

可从人类或其它智能体经验中学习
重用旧策略经验
可在用一个探索性策略的同时学习一个确定性策略
可用一个策略采样，同时学习多个策略

$\epsilon$ -贪心探索：所有 $m$ 个动作都以非零概率被选择，以 $1-\epsilon$ 概率选择贪心最优动作，以 $\epsilon$ 概率选择随机动作：
$\pi(a|s) = \begin{cases} \frac{\epsilon}{m}+1-\epsilon & \text{if } a=a^*=\mathop{\arg\max}_{a \in A} q(s,a) \\ \frac{\epsilon}{m} & \text{otherwise} \end{cases}$

GLIE（Greedy in the Limit with Infinite Exploration）：所有状态-动作对都被无限次探索，策略趋同于贪心策略。GLIE的MC控制收敛于最优动作价值函数 $Q(s,a)\to q_*(s,a)$ 。

SARSA（State-Action-Reward-State-Action） 是一种TD算法，目标是学习最优动作价值函数 $Q_*$ ，在满足以下条件时 $Q(s,a)\to q_*(s,a)$ ：

任何时候的策略 $\pi_t(a|s)$ 符合GLIE特性；
步长系数 $\alpha_t$ 满足 $\sum_{t=1}^{\infin}\alpha_t=\infin$ 且 $\sum_{t=1}^{\infin}\alpha_t^2<\infin$ 。

n步Q回报： $q^{(n)}_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1}R_{t+n}+\gamma^nQ(S_{t+n})$ 。

使用n步Q回报来更新Q(S,A)： $Q(S_t,A_t)\gets Q(S_t,A_t)+\alpha(q^{(n)}_t-Q(S_t,A_t))$ 。

$q^{\lambda}$ 回报包含了所有的n步Q回报 $q^{(n)}$ ， $q^{\lambda}_t=(1-\lambda)\sum^{\infin}_{n=1}\lambda^{n-1}q^{(n)}_t$ 。

前向视角SARSA( $\lambda$ ) 的更新函数为 $Q(S_t,A_t)\gets Q(S_t,A_t)+\alpha(q^{\lambda}_t-Q(S_t,A_t))$ 。

5.2 重要性抽样

异策MC重要性抽样：

由 $\mu$ 产生的回报来评估 $\pi$ ；
根据策略相似性对 $G_t$ 加权；
沿整个Episode对重要性采样的权重进行连乘 $G^{\frac{\pi}{\mu}}_t=\frac{\pi(A_t|S_t)}{\mu(A_t|S_t)}\frac{\pi(A_{t+1}|S_{t+1})}{\mu(A_{t+1}|S_{t+1})}...\frac{\pi(A_T|S_T)}{\mu(A_T|S_T)}G_t$ ；
由修正过的返回值来更新截止函数 $V(S_t)\gets V(S_t)+\alpha(G^{\frac{\pi}{\mu}}_t-V(S_t))$ ；
当 $\pi$ 非零且 $\mu$ 为零时，无法使用；
会显著增加方差。

异策TD重要性抽样：

由 $\mu$ 产生的TD目标值来评估 $\pi$ ；
通过重要性抽样对TD目标 $R+\gamma V(S')$ 进行加权；
只需一次重要性抽样校正 $V(S_t)\gets V(S_t)+\alpha(\frac{\pi(A_t|S_t)}{\mu(A_t|S_t)}(R_{t+1}+\gamma V(S_{t+1}))-V(S_t))$ ；
方差比MC重要性采样低得多；
策略只需在一个时间步上相似。

5.3 Q学习

Q学习（Q-Learning）：

允许同时改进采样策略 $\mu$ 和目标策略 $\pi$ ；
$\pi$ 设为贪心策略， $\mu$ 设为 $\epsilon$ -贪心策略；
目标为 $R_{t+1}+\gamma\mathop{\max}_{a'}Q(S_{t+1},a')$ ；
$Q(S,A)\gets Q(S,A)+\alpha(R+\gamma\mathop{\max}_{a'}Q(S',a')-Q(S,A))$ ；
收敛到最优动作价值函数 $Q(s,a)\to q_*(s,a)$ ；
Q学习直接学习最优策略，而SARSA学习最优策略的同时还在探索。

CH6 价值函数近似

6.1 增量方法

增量算法（Incremental Method） 基于数据流，经历一步，更新算法后就不再使用这步数据。

查表（Tbale Lookup）：每个状态或每个状态-行为对对应表格中一项。

状态价值函数近似的目标函数 $J(w)=E_{\pi}[(v_{\pi}(S)-\hat{v}(S,w))^2]$ 。

动作价值函数近似的目标函数 $J(w)=E_{\pi}[(q_{\pi}(S,A)-\hat{v}(S,A,w))^2]$ 。

随机梯度下降（Stochastic Gradient Descent，SGD） ：对梯度进行采样 $\Delta w=\alpha(v_{\pi}(S)-\hat{v}(S,w))\nabla_w\hat{v}(S,w)$ ，期望更新与全梯度更新相等。使用SGD可以收敛至全局最优解。

6.2 批方法

批方法（Batch Method） 集中一段时期内数据，学习以使参数较好拟合这段时期内所有数据。

最小二乘法：要求找到参数 $w$ ，使得目标函数最小。

经验回放（Experience Replay）：把一段时期内的经验重新过一遍，更新参数。从经验中采样一个 $< s, v >$ ，应用SGD更新参数，收敛至针对这段经验数据的最小二乘法的最优解。

DQN（Deep Q-Networks）：使用经验回放和固定的Q目标值，其经验回放过程：

用 $\epsilon$ -greedy执行策略产生 $t$ 时刻的动作 $a_t$ ；
将经验数据以 $s_t,a_t,r_{t+1},s_{t+1})$ 形式存储在回放内存 $D$ 中；
从 $D$ 中随机抽取小批量数据 $(s, a, r, s^{'})$ ；
维护两个DQN，一个固定参数用于产生目标值，相当于标签数据；另一个用于评估策略，更新参数；
优化Q网络和Q目标值之间的最小均方误差，用SGD更新参数。

CH7 策略梯度

7.1 简介

Value-Based RL学习价值函数指导策略制定；Policy-Base RL学习策略而没有价值函数；Actor-Critic RL既学习价值函数也学习策略。

策略梯度算法：在所有的策略目标函数 $J(\theta)$ 中通过提升策略的梯度来寻找局部最大值 $\Delta\theta=\alpha\nabla_{\theta}J(\theta)$ ，其中 $\nabla_{\theta}J(\theta)$ 是策略梯度， $\alpha$ 是步长参数。

7.2 有限差分策略梯度

有限差分策略梯度： $\frac{\partial J(\theta)}{\partial \theta_k}\approx\frac{J(\theta+\epsilon u_k)-J(\theta)}{\epsilon}$ ， $u_k$ 是单位向量，仅在第 $k$ 个维度上为 $1$ ，其余维度为 $0$ 。当梯度函数本身很难得到的时候很常用。

7.3 MC策略梯度

评分函数/迹向量（Score Function）： $\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)$ （已知 $\nabla_{\theta}\pi_{\theta}(s,a)=\pi_{\theta}(s,a)\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)$ ）。

策略梯度定理： $\nabla_{\theta}J(\theta)=E_{\pi_\theta}[\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)Q^{\pi_\theta}(s,a)]$ ，其中策略 $\pi_{\theta}(s,a)$ 可微，策略的目标函数 $J=J_1,J_{\overline{R}}或\frac{1}{1-\gamma}J_{\overline{V}}$ 。

MC策略梯度：用随机梯度上升来更新参数，利用策略梯度定理，用返回值 $v_t$ 作为 $Q^{\pi_{\theta}}(s_t,a_t)$ 的无偏样本 $\Delta\theta_t=\alpha\nabla_{\theta}\mathop{\log}\pi_{\theta}(s_t,a_t)v_t$ 。

7.4 Actor-Critic策略梯度

评委（Critic）：更新动作价值函数参数 $w$ 。

演员（Actor）：按照Critic建议的方向更新策略参数 $\theta$ 。

Actor-Critic算法：遵循一个近似的策略梯度 $\nabla_{\theta}J(\theta)\approx E_{\pi_{\theta}}[\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)Q_w(s,a)]$ ， $\Delta{\theta}= \alpha\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)Q_w(s,a)$ 。

动作价值Actor-Critic算法用线性价值函数来近似状态行为价值函数，其中Critic通过线性近似的TD(0)更新 $w$ ，Actor通过策略梯度更新 $\theta$ 。

近似策略梯度会引入偏差，需要仔细选择值函数近似 $Q_w(s,a)$ 才能避免引入偏差。满足兼容近似函数定理的策略函数是精确的：

近似价值函数算子与策略兼容： $\nabla_w Q_w(s,a)=\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)$ ；
价值函数参数w使得均方差最小： $\epsilon=E_{\pi_{\theta}}[(Q^{\pi_{\theta}}(s,a)-Q_w(s,a))^2]$ 。

从策略梯度中减去一个基线函数 $B (s)$ 可以减少方差而不改变期望，一个很好的基线是状态价值函数 $B(s)=V^{\pi_{\theta}(s)}$ 。

优势函数（Advantage）： $A(s,a)=Q_w(s,a)-V_v(s)$ ，其中 $Q_w(s,a) \approx Q^{\pi_{\theta}}(s,a)$ ， $V_v(s) \approx V^{\pi_{\theta}(s)}$ 。使用优势函数计算策略梯度可以明显减少策略梯度的方差。算法的Critic部分可以估计优势函数。

TD误差 $\delta^{\pi_{\theta}}=r+\gamma V^{\pi}_{\theta}(s')-V^{\pi_{\theta}}(s)$ 是优势函数的无偏估计，可以使用TD误差来计算策略梯度 $\nabla_{\theta}J(\theta)=E_{\pi_{\theta}}[\nabla_{\theta}\mathop{\log}\pi_{\theta}(s,a)\delta^{\pi_{\theta}}]$ 。实际运用时，用近似TD误差 $\delta_v=r+\gamma V_v(s')-V_v(s)$ 。这样做好处是只需一套参数描述状态价值函数，不需针对行为价值近似函数。