知识五：强化学习-无模型控制

最新推荐文章于 2024-10-11 21:24:38 发布

Yunfeng Peng

最新推荐文章于 2024-10-11 21:24:38 发布

阅读量879

点赞数 27

分类专栏：强化学习文章标签：机器学习算法人工智能动态规划

本文链接：https://blog.csdn.net/pengyunfenn/article/details/142850620

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

知识五：强化学习-无模型控制

5.1 介绍

5.1.1 无模型强化学习

无模型控制
优化一个未知的 MDP（有上下状态关系）的价值函数

5.1.2 无模型控制的应用

一些可以建模为MDP的例子
- 电梯，侧方位停车，船舶操舵，生物反应器，直升机，航空物流
- 机器人足球世界杯，地震，证券投资管理，机器人行走，围棋
对于大多数这些问题，会有下列之一的情况：
- MDP 模型是未知的，但可以采样得到经验
- MDP 模型是已知的，但过于复杂，过于繁琐
无模型控制可以解决这些问题
在轨（On-policy）学习
- 在工作中学
- 从 $\pi$ 中得到的经验学习策略 $\pi$
离轨（Off-policy）学习
- 站在巨人的肩膀上
- 从 $\mu$ 中得到的经验学习策略 $\pi$

5.2 在轨蒙特卡罗控制

5.2.1 策略迭代算法

因为是无模型的，不知道状态转移矩阵，所以策略改进的时候，不能用有模型的MDP 状态价值更行公式进行更新了。
所以可以直接对动作价值进行更新

$\pi'(s)=\underset{a\in\mathcal{A}}{\operatorname*{argmax}}Q(s,a)$

5.2.2 MC的动作价值评估

采样策略 $\pi$ 的第k轮。
对于episode中的每个状态和动作。

$\begin{aligned}&N(S_{t},A_{t})\leftarrow N(S_{t},A_{t})+1\\&Q(S_{t},A_{t})\leftarrow Q(S_{t},A_{t})+\frac{1}{N(S_{t},A_{t})}(G_{t}-Q(S_{t},A_{t}))\end{aligned}$

策略评估 蒙特卡罗策略评估， $\begin{matrix}{\mathrm{Q}}&{=\mathrm{q}_{\pi}}\\\end{matrix}$
策略优化 贪婪策略优化？是否好呢？ $\pi'(s)=\underset{a\in\mathcal{A}}{\operatorname*{argmax}} Q(s,a)$
很显然，贪婪方法未必是最优解，所以需要对策略进行修改。贪婪策略只有利用没有探索。所以现在加点探索的作用。

5.2.3 $\mathbf{\varepsilon}$ -Greedy探索

确保持续探索的最简单想法
所有 $m$ 个动作都以非零概率进行尝试。
以 $1 - ε$ 的概率选择贪婪动作
以 $ε$ 的概率随机选择动作

$\left.\pi(a|s)=\left\{\begin{array}{ll}\epsilon/m+1-\epsilon&\text{if}a^*=\text{argmax}\\\epsilon/m&\text{otherwise}\end{array}\right.Q(s,a)\right.$

大概率的回去利用，但是有一些小概率能探索，这就保证了系统有了探索和利用的能力，不光全是利用。
从理论的角度也证明了， $\mathbf{\varepsilon}$ -Greedy优于Greedy策略。

$\begin{aligned} q_\pi(s,\pi^{\prime}(s))& =\sum_{a\in\mathcal{A}}\pi^{\prime}(a|s)q_{\pi}(s,a) \\ &=\epsilon/m\sum_{a\in\mathcal{A}}q_{\pi}(s,a)+(1-\epsilon)\max_{a\in\mathcal{A}}q_{\pi}(s,a) \\ &\geq\epsilon/m\sum_{a\in\mathcal{A}}q_{\pi}(s,a)+(1-\epsilon)\sum_{a\in\mathcal{A}}\frac{\pi(a|s)-\epsilon/m}{1-\epsilon}q_{\pi}(s,a) \\ &=\sum_{a\in\mathcal{A}}\pi(a|s)q_\pi(s,a)=v_\pi(s) \end{aligned}$

5.2.4 MC策略迭代

请添加图片描述

策略评估 MC策略评估，$\mathcal{Q}=\mathfrak{q}_\pi $
策略优化 $\mathbf{\varepsilon}$ -Greedy策略优化

请添加图片描述

每轮episode
- 策略评估 MC策略评估，$\mathcal{Q}\approx\mathfrak{q}_\pi $
- 策略优化 $\mathbf{\varepsilon}$ -Greedy策略优化
和上面的区别就是不用每轮 $Q$ 都要达到收敛，也可以得到最优策略。

5.2.5 GILE（greedy in the Limit with Infinite Exploration）

满足GILE条件才能一定收敛
有限的时间里进行无限可能的探索（GILE）
- 所有的状态-动作（组合）都被探索了无数次

$\lim_{k\to\infty}N_k(s,a)=\infty$

策略趋同于贪婪的策略

$\lim_{k\to\infty}\pi_k(a|s)=\mathbf{1}(a=\underset{a^{\prime}\in\mathcal{A}}{\operatorname*{\arg\max}}Q_k(s,a^{\prime}))$

例如，如果 $\varepsilon_{k}=\frac{1}{k}$ ( $k$ 为探索的episode数目)，则 $\mathbf{\varepsilon}$ -Greedy为GLIE

$\pi(a|s)=\left\{\begin{array}{ll}\epsilon/m+1-\epsilon&\text{if}a^*=\mathop{\mathrm{argmax}}_{a\in\mathcal{A}}Q(s,a)\\\epsilon/m&\text{otherwise}\end{array}\right.$

5.2.6 GILE蒙特卡罗控制

采样策略 $π$ 的第 $k$ 轮episode：${S_{1},A_{1},R_{2},\ldots,S_{T}}{\sim}\pi $
对于episode中的每个状态 $S_t$ 和动作 $A_t$

$\begin{aligned}&N(S_{t},A_{t})\leftarrow N(S_{t},A_{t})+1\\&Q(S_{t},A_{t})\leftarrow Q(S_{t},A_{t})+\frac{1}{N(S_{t},A_{t})}(G_{t}-Q(S_{t},A_{t}))\end{aligned}$

基于新的动作价值函数优化策略

$\begin{array}{c}\epsilon\leftarrow1/k\\\pi\leftarrow\epsilon\text{-greedy}(Q)\end{array}$

以上就保证了，一定能收敛到最优的。
MC最大的问题是，游戏必须是回合制的，不能是结束不了的。

5.3 在轨时序差分学习

5.3.1 MC vs TD 控制

与蒙特卡罗(MC)相比，时序差分(TD)学习有几个优点。
- 更低的方差
- 在线
- 不完整的序列
自然的想法是: 在我们的控制循环中使用TD而不是MC
- 将TD应用于 $Q (S, A)$
- 使用 $\mathbf{\varepsilon}$ -Greedy策略改进
- 更新每一步时间步

5.3.2 TD方法的实现（使用 Sarsa 更新动作价值函数）

请添加图片描述

$Q(S,A)\leftarrow Q(S,A)+\alpha\left(R+\gamma Q(S^{\prime},A^{\prime})-Q(S,A)\right)$
请添加图片描述

每个时间步:
- 策略评估 Sarsa，$Q ≈ $ $q_\pi$
- 策略优化 $ε$ -Greedy 策略优化

5.3.3 Sarsa的收敛性

Sarsa收敛于最优动作价值函数， $Q (s, a) \to q (s, a)$ ，满足以下条件:
- 任何时候的策略 $π (a ∣ s)$ 符合GLIE特性
- 步长系数 $a_t $满足:

$\sum_{t=1}^\infty\alpha_t=\infty\\\sum_{t=1}^\infty\alpha_t^2<\infty$

满足上面的条件就能收敛

5.4 离轨学习之Q学习

5.4.1 离轨学习

目标策略：用来学习的策略（就是我的）
行为策略：生成行动样本的策略（就是玩的那个）
评估目标策略 $\pi(a|s)$ 以计算 $V_{\pi}(s)$ 或 $q_{\pi}(s,a)$
同时遵循行为策略 $\mu(a|s)$

$\{S_1,A_1,R_2,...,S_T\}\sim\mu$

通过观察人类或其他智能体来学习
重用从旧策略 $\pi_{1},\pi_{2},\ldots,\pi_{t-1}$ 来生成的经验
在遵循探索性策略的同时学习最优策略
例如用 DQN 打游戏，deep mind最早做的这个离轨的这种是比较震撼的。

5.4.2 Q-学习

现在考虑基于动作价值 $Q (s, a)$ 的离轨学习
使用行为策略 $A_t$ ~μ(·| $S_t$ )选择下一个动作，产生 $R_{t+1} .$ 与 $S_{t+1} .$
考虑基于替代策略 $π$ 的后续动作 $A^{\prime}\sim\pi(\cdot|S_{t})$
并将 $Q(S_{t},A_{t})$ 更新为替代策略动作的价值

$Q(S_t,A_t)\leftarrow Q(S_t,A_t)+\alpha\left(R_{t+1}+\gamma Q(S_{t+1},A^{\prime})-Q(S_t,A_t)\right)$

5.4.3 使用Q-学习离轨控制

现在允许行为和目标策略都得到优化（共享了 $Q$ 函数）
目标策略 $\pi$ 是贪婪的，$w.r.t $ $Q （ s ， a ）$

$\pi(S_{t+1})=\underset{a^{\prime}}{\operatorname*{argmax}}Q(S_{t+1},a^{\prime})$

行为策略 $μ$ 是 $\mathbf{\varepsilon}$ -Greedy的$w.r.t $ $Q （ s ， a ）$
然后，Q-Learning目标简化为

$\begin{aligned}&R_{t+1}+\gamma Q(S_{t+1},A^{\prime})\\&=R_{t+1}+\gamma Q(S_{t+1},\mathrm{argmax} Q(S_{t+1},a^{\prime}))\\&=R_{t+1}+\max_{a^{\prime}}\gamma Q(S_{t+1},a^{\prime})\end{aligned}$