【文献学习】强化学习1：基于值函数的方法

最新推荐文章于 2024-07-23 22:06:37 发布

qq_41414353

最新推荐文章于 2024-07-23 22:06:37 发布

阅读量961

点赞数 1

分类专栏：多智能体集群文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/qq_41414353/article/details/121404879

版权

多智能体集群专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考文献：
[1]《机器学习》,周志华（西瓜书）
[2]《强化学习》,邹伟,等（鳄鱼书）
（今天看书总是走神，干脆总结一下，希望帮自己理清思路。如果碰巧能被大神看到，如有不正确或不严谨之处，万望指教！）

动态规划法

动态规划法是典型的有模型强化学习算法，即模型已知，对任意状态 $x$ ， $x^{'}$ 和动作 $a$ ，在 $x$ 状态下执行动作 $a$ 转移到 $x^{'}$ 状态的概率 $P_{x→x'}^a$ 是已知的，该转移所带来的奖赏 $R_{x→x'}^a$ 也是已知的。
在每执行一步策略后就进行值函数的更新。
1.策略评估
$V^\pi(x,a)$ 表示从状态 $x$ 出发，使用策略 $\pi$ 所才来的累积奖赏； $Q^\pi(x,a)$ 表示从状态 $x$ 出发，执行动作a后再使用策略 $\pi$ 带来的累积奖赏。
对于T步累计奖赏有
$V_T^\pi=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P_{x→x'}^a(\frac{1}{T}R_{x→x'}^a+\frac{T-1}{T} V_{T-1}^\pi(x'))$
对于 $\gamma$ 折扣累计奖赏有
$V_\gamma^\pi(x)=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P_{x→x'}^a(R_{x→x'}^a+\gamma V_\gamma^\pi(x'))$
有了状态值函数V，就能直接计算出状态-动作值函数
$Q_T^\pi=\sum_{x'\in X}P_{x→x'}^a(\frac{1}{T}R_{x→x'}^a+\frac{T-1}{T} V_{T-1}^\pi(x'))$
$Q_\gamma^\pi(x)=\sum_{x'\in X}P_{x→x'}^a(R_{x→x'}^a+\gamma V_\gamma^\pi(x'))$
2.策略改进
立项的策略应能最大化累积奖赏： $\pi^*=\argmax_\pi \sum_{x\in X}V^\pi(x)$
$V_T^*(x)=\max_{a\in A}\sum_{x'\in X}P_{x→x'}^a(\frac{1}{T}R_{x→x'}^a+\frac{T-1}{T} V_{T-1}^\pi(x'))$
$V_\gamma^*(x)=\max_{a\in A}\sum_{x'\in X}P_{x→x'}^a(R_{x→x'}^a+\gamma V_\gamma^\pi(x'))$
于是： $V^*(x)=\max_{x\in A}Q^{\pi^*}(x,a)$
则最优状态-动作值函数有
$Q_T^*(x,a)=\sum_{x'\in X}P_{x→x'}^a(\frac{1}{T}R_{x→x'}^a+\frac{T-1}{T} \max_{a'\in A}Q_{T-1}^*(x',a'))$
$Q_\gamma^\pi(x)=\sum_{x'\in X}P_{x→x'}^a(R_{x→x'}^a+\gamma \max_{a'\in A}Q_{\gamma}^*(x',a'))$
3.策略迭代与值迭代
策略迭代：策略评估→改进策略→策略评估→改进策略……
值迭代：将策略改进视为值函数的改善，得
$V_T(x)=\max_{a\in A}\sum_{x'\in X}P_{x→x'}^a(\frac{1}{T}R_{x→x'}^a+\frac{T-1}{T} V_{T-1}(x'))$
$V_\gamma^*(x)=\max_{a\in A}\sum_{x'\in X}P_{x→x'}^a(R_{x→x'}^a+\gamma V_\gamma(x'))$

免模型学习

学习算法不依赖于环境建模
1.蒙特卡洛强化学习
一种直接的策略评估评估替代方法是多次“采样”，然后求取平均累积奖赏来作为期望累积奖赏的近似。
由于模型未知，从V到Q转换困难，估计对象从V转变为Q。
其本质是通过多次尝试后求平均来作为期望累积奖赏的近似，但它在求平均时是“批量处理”进行的，即在一个完整的采样轨迹完成后再对所有状态-动作对进行更新。
此类算法需在完成一个采样轨迹之后再更新策略的值估计。缺点是：未充分利用强化学习任务的MDP结构。
1.1同策略蒙特卡洛学习算法
欲较好地获得值函数的估计，就需要多条不同采样轨迹。
蒙特卡洛方法进行策略评估后，进行策略改进。被评估和被改进的是同一个策略，因此称为“同策略”蒙特卡洛强化学习算法。
西瓜书P384 图16.10

同策略蒙特卡洛强化学习算法最终产生的是 $\epsilon$ -贪心策略。
1.2异策略蒙特卡洛学习算法
在策略评估时引入 $\epsilon$ -贪心策略，在策略改进时改进原策略。
西瓜书P386 图16.11
2.时序差分学习
结合了动态规划与蒙特卡洛的思路。
将蒙特卡洛强化学习的更新过程增量式进行。设对于状态-动作对 $(x, a)$ ，假设基于 $t$ 个采样已估计出值函数 $Q_t^\pi (x,a)=\frac{1}{t}\sum_{i=1}^{t}r_i$ ，则在得到第 $t + 1$ 个采样 $r_{t+1}$ 时，通过增量求和可得
$Q_{t+1}^\pi(x,a)=Q_{t}^\pi(x,a)+\alpha (R_{x→x'}^a+\gamma Q_{t}^\pi(x',a')+Q_{t}^\pi(x,a))$

Sarsa算法是一个同策略算法，评估与执行均为 $\epsilon$ -贪心策略。
将Sarsa修改为异策略算法，得到Q-学习算法

3.资格迹
状态值函数更新参考的距离在1~N之间。资格迹两种视角：
1）前向视角（理论视角）：由当前状态出发向还未访问的状态观察设计，认为资格迹是连接时序差分法和蒙特卡洛方法的桥梁。
2）后向视角（工程视角）：由当前状态向已访问过的状态观察设计的一种算法。
前向视角告诉我们资格迹在理论层面如何工作，后向视角告诉我们在工程层面如何实现。（一般采用后向视角实现）
后向算法概述
3.1Sarsa( $\lambda$ )方法
Sarsa(lambda)
Sarsa( $\lambda$ )后向算法为单个轨迹内，每进行一个时间步，都会基于这个时间步的数据对行为值函数进行更新，产生采样的策略和评估改进的策略都是 $\epsilon$ -贪心策略。
3.2Q( $\lambda$ )算法
Watkins's Q(lambda)
4.总结
蒙特卡洛法：更新当前状态值函数时，蒙特卡洛法中，这个距离是整个轨迹的长度，记为N。
时序差分法：状态值更新距离是1个时间步。
资格迹：状态值更新在1~N之间的距离。

值函数近似

之前的强化学习为表格型强化学习。
状态空进连续，有无穷多个状态。直接对连续状态空间的值函数进行学习。
1.线性逼近
线性逼近时选定基函数。
假定状态空间为n维实数空间 $X=\textbf{R}^n$ ，状态线性函数为： $V_\boldsymbol{\theta}(x)=\boldsymbol{\theta}^T\boldsymbol{x}=\sum_{i=1}^d\boldsymbol{\theta}_ix_i(s)$
这个时候 $V_\boldsymbol{\theta}(x)$ 还是关于参数向量 $\boldsymbol{\theta}$ 的线性函数，因此还是属于线性函数逼近的范畴。此时 $\boldsymbol{x}(\boldsymbol{s})$ 称为状态s的特征函数（基函数）。
常见基函数：1.多项式基函数；2.傅里叶基函数；3.径向基函数。
1.1增量法
针对每一步（轨迹中的每一个状态转换序列），一旦有增量发生，则立即优化近似函数。
希望学到的值函数尽可能近似真实值函数 $V_\pi(s)$ ，近似程度常用最小而成误差来度量：
$E_\theta=E_\pi[(\boldsymbol{V}_\pi(s)-\boldsymbol{\theta}^T\boldsymbol{x}(\boldsymbol{s}))^2]$
采用梯度下降法，对误差求负倒数，整理，得到单个样本的更新规则：
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(V^\pi(\boldsymbol{x})-\boldsymbol{\theta}^T\boldsymbol{x}(s))\boldsymbol{x}$
由于并不知道真实函数 $V^\pi(s)$ 的取值，可以考虑使用任何一个无模型方法对其进行估计。
1.1.1基于蒙特卡洛方法的参数逼近
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(G_t-\boldsymbol{\theta}^T\boldsymbol{x}(s_t))\boldsymbol{x}(s_t)$
1.1.2基于时序差分法的参数逼近
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(R_{t+1}+\gamma\boldsymbol{\theta}^T\boldsymbol{x}(s_{t+1})-\boldsymbol{\theta}^T\boldsymbol{x}(s_t))\boldsymbol{x}(s_t)$
1.1.3基于前向TD( $\lambda$ )的参数逼近
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(G_t^\lambda-\boldsymbol{\theta}^T\boldsymbol{x}(s_t))\boldsymbol{x}(s_t)$
1.1.4基于后向TD( $\lambda$ )的参数逼近
整体规则： $\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(Q^\pi(\boldsymbol{s},\boldsymbol{a})-\boldsymbol{\theta}^T\boldsymbol{x}(\boldsymbol{s},\boldsymbol{a}))\boldsymbol{x}(\boldsymbol{s},\boldsymbol{a})$
基于蒙特卡洛的参数逼近：
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(G_t-\boldsymbol{\theta}^T\boldsymbol{x}(s_t,a_t))\boldsymbol{x}(s_t,a_t)$
基于Sarsa的参数逼近为：
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(R_{t+1}+\gamma\boldsymbol{\theta}^T\boldsymbol{x}(s_{t+1},\boldsymbol{a}_{t+1})-\boldsymbol{\theta}^T\boldsymbol{x}(s_t,\boldsymbol{a}_t))\boldsymbol{x}(s_t,a_t)$
基于Q-学习的参数逼近为：
$\boldsymbol{\theta}=\boldsymbol{\theta}+\alpha(R_{t+1}+\gamma\boldsymbol{\theta}^T\boldsymbol{x}(s_{t+1},\pi(\boldsymbol{s}_{t+1}))-\boldsymbol{\theta}^T\boldsymbol{x}(s_t,\boldsymbol{a}_t))\boldsymbol{x}(s_t,a_t)$
一下给出其中一种算法的流程：
值函数逼近Sarsa算法

1.2批量法
针对一批历史数据（如一段轨迹）集中进行近似。
相比于增量法，数据利用率高，计算更为复杂。
批量法是把一段时间内的数据集中起来，如给定一段经验数据集 $D=\{(s_1,V_1^\pi),(s_2,V_2^\pi),...,(s_T,V_T^\pi)\}$ 通过学习，找到最好的拟合函数 $\hat{V}(s,\theta)$ 使得参数能较好地符合这段时间内所有的数据，满足损失函数最小化：
$L(\boldsymbol{\theta})=\sum_{t=1}^T(V_t^\pi-\boldsymbol{\theta}^T\boldsymbol{x}(\boldsymbol{s}_t))^2$
对 $\theta$ 求导，求解 $\theta$ .，具体各方法求解成果见鳄鱼书P148.以下给出值函数逼近Q学习算法（批量法）如下：
在这里插入图片描述
2.非线性逼近
2.1DQN(Deep Q-Network)方法
2.1.1算法要点
DQN在Q-learning基础上进行如下改进：1.DQN使用深度神经网络从原始数据中提取特征，近似行为值函数(Q值)；2.DQN利用经历回放对强化学习过程进行训练；3.DQN设置了单独的目标网络来处理TD偏差（一个网络固定参数专门用来产生TD目标，另一个网络专门用来评估策略更新参数，逼近值函数）
2.1.2操作步骤
1.原始图片预处理；2.神经网络参数更新；3.训练；4.评估
2.1.3算法流程
在这里插入图片描述

2.2Double DQN(DDQN)方法
将行为选择和行为评估采用不同的值函数实现。
传统DQN中，选择行为和评估行为用的是同一个网络参数，以及同一个值函数。DDQN分别采用不同的值函数实现动作选择和评估。传统DQN自身提供了两个网络：主网络和目标网络。因此可以直接使用主网络选择动作，在用目标网络进行动作评估，不必引入河外网络。
在这里插入图片描述

2.3Dueling DQN方法
Dueling DQN在不对算法进行改变的基础上，关注与改造神经网络架构本身，使其训练更为容易，结果更为稳定，更适合于无模型强化学习。
2.3.1价值和优势
将Q值分解为价值(Value)和优势(Advantage)
$Q (s, a) = V (s) + A (s, a)$
$V (s)$ 可表示在该状态s下所有可能动作对应的动作值函数乘以采取该动作的概率之和。动作值函数Q(s,a)是单个动作所对应的值函数，Q(s,a)-V(s)表示当前动作值函数相对于平均值的大小。故，优势表示的是动作值函数相比于当前状态值函数的优势，是在这个状态下各个动作的相对好坏程度。
2.3.2Dueling DQN算法
其与传统DQN唯一的区别就是网络结构。
在这里插入图片描述

模仿学习

（这个部分我暂时不确定是不是基于值函数的方法，是读西瓜书的时候整理的，等我把鳄鱼书整理完再来看它！）
机器能获得人类专家的决策过程返利，从范例中学习，称为“模仿学习”。
1.直接模仿学习
假定获得一批人类专家决策轨迹数据 $\{ \tau_1,\tau_2,...,\tau_m\}$ ，每条轨迹包含状态和动作序列 $\tau_i=< s_1^i,a_1^i,s_2^i,a_2^i,...,s_{n_i+1}^i>$ ，其中 $n_i$ 为第i条轨迹中的转移次数。
可利用监督学习来符合人类专家决策轨迹数据的决策。
将轨迹上所有“状态-动作对”抽取出来，构造一个新的数据集合 $D$ ，即吧状态作为特征，动作作为标记，然后对这个新构造出的数据集合D适用分类或回归算法即可学得策略模型。学得的策略可作为机器新型强化学习的处事策略，在通过强化学习方法基于环境反馈进行改进，获得更好策略。
2.逆强化学习
设计奖赏函数困难，从人类专家提供的范例数据中反推出奖赏函数。
基本思想：欲使机器做出与范例一致的行为，等价于在狗哥奖赏函数的环境中求解最优策略，该最优策略所产生的轨迹与范例数据一致。也就是说，我们要寻找某种奖赏函数使范例数据最优，即可使用这个江上寒暑来训练强化学习策略。
假设将行函数能表达为状态特征的线性函数，即 $R(\boldsymbol{x})=\boldsymbol{w}^T\boldsymbol{x}$ ，策略 $\pi$ 的积累奖赏可写为
$\rho^\pi=\boldsymbol{w}TE[\sum_{t=0}^{+\infty}\gamma^t\boldsymbol{x}_t|\pi]$
即状态向量加权和的期望与系数 $\boldsymbol{w}$ 的内积。
将向量期望 $E[\sum_{t=0}^{+\infty}\gamma^t\boldsymbol{x}_t|\pi]$ 简写为 $\bar{\boldsymbol{x}}^\pi$ ，可用蒙特卡洛方法通过采样近似期望。可将每条范例轨迹上的状态加权求和再平均，记为 $\bar{\boldsymbol{x}}^*$ ，于是有：
$\boldsymbol{w}^*=\argmax_{w}\min_\pi \boldsymbol{w}^T(\bar{\boldsymbol{x}}^*-\bar{\boldsymbol{x}}^\pi)$
$||\boldsymbol{w}||\leq1$

qq_41414353

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【文献学习】强化学习1：基于值函数的方法

参考文献：《机器学习》,周志华（西瓜书）（今天看书总是走神，干脆总结一下，希望帮自己理清思路。如果碰巧能被大神看到，如有不正确或不严谨之处，万望指教！）动态规划法动态规划法是典型的有模型强化学习算法，即模型已知，对任意状态xxx，x′x'x′和动作aaa，在xxx状态下执行动作aaa转移到x′x'x′状态的概率Px→x′aP_{x→x'}^aPx→x′a是已知的，该转移所带来的奖赏Rx→x′aR_{x→x'}^aRx→x′a也是已知的。在每执行一步策略后就进行值函数的更新。1.策略评估Vπ(
复制链接

扫一扫

专栏目录