【强化学习】五、无模型控制

Henry_Zhao10

已于 2023-08-23 15:53:07 修改

阅读量423

点赞数

分类专栏：强化学习文章标签：算法深度学习机器学习

于 2023-08-23 15:34:05 首次发布

本文链接：https://blog.csdn.net/Henry_Zhao10/article/details/132453720

版权

强化学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

五、无模型控制

1.介绍

无模型预测：估计一个未知MDP的价值函数

无模型控制：优化一个未知MDP的价值函数

无模型控制的应用

一些可以建模成MDP的例子：电梯、侧方位停车、证券投资管理、船舶操舵、机器人行走

对于大多数这些问题，会有下列之一的情况：

MDP模型是未知的，但可以采样得到经验
MDP模型是已知的，但过于复杂，过于繁琐

无模型控制可以解决这些问题

在轨/离轨学习

在轨学习（On-policy）

在工作中学习，边打边学
从 $\pi$ 中得到的经验学习策略 $\pi$

离轨学习（Off-policy）

站在巨人的肩膀上，看棋谱
从 $\mu$ 中得到的经验学习策略 $\pi$

2.在轨蒙特卡罗控制

基于动作价值函数的广义策略迭代

策略评估蒙特卡罗策略评估， $Q=q_\pi$

策略优化贪婪策略优化？ $\pi^{\prime}(s)=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q(s, a)$

$\epsilon-Greedy$ 探索

当我们使用 Q 函数的时候，策略完全取决于 Q 函数。给定某一个状态，我们就穷举所有的动作，采取让 Q 值最大的动作，但这并不是一个好的数据收集方式

假设我们在状态 $s$ 采取动作 $a_2$ ，它得到的值是正的奖励， $Q(s,a_2)$ 就会比其他动作的 $Q$ 值要大。在采取动作的时候，谁的 $Q$ 值最大就采取谁，所以之后永远都只会采取 $a_2$ ，其他的动作就再也不会被采取了，这就会有问题。

所以要使用 $\epsilon-greedy$ 方法。

确保持续探索的最简单想法
所有 $m$ 个动作都以非零概率进行尝试
以 $1-\epsilon$ 的概率选择贪婪动作
以 $\epsilon$ 的概率随机选择动作

$\pi(a \mid s)= \begin{cases}\epsilon / m+1-\epsilon & \text { if } a^*=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q(s, a) \\ \epsilon / m & \text { otherwise }\end{cases}$

GLIE（greedy in the Limit with Infinite Exploration）

有限的时间里进行无限可能的探索

所有的状态-动作对都被探索了无数次

$\lim _{k \rightarrow \infty} N_k(s, a)=\infty$

策略趋同于贪婪的策略

$\lim _{k \rightarrow \infty} \pi_k(a \mid s)=\mathbf{1}\left(a=\underset{a^{\prime} \in \mathcal{A}}{\operatorname{argmax}} Q_k\left(s, a^{\prime}\right)\right)$

例如，如果 $\epsilon _k=\frac{1}{k}$ （k为探索的episode数目），则 $\epsilon-Greedy$ 为GLIE

GLIE蒙特卡罗控制

采样策略 $\pi$ 的第 $k$ 轮episode： ${S_1,A_1,R_2,\dots,S_T} \sim \pi$

对于episode中的每个状态 $S_t$ 和动作 $A_t$
$\begin{aligned} & N\left(S_t, A_t\right) \leftarrow N\left(S_t, A_t\right)+1 \\ & Q\left(S_t, A_t\right) \leftarrow Q\left(S_t, A_t\right)+\frac{1}{N\left(S_t, A_t\right)}\left(G_t-Q\left(S_t, A_t\right)\right) \end{aligned}$
基于新的动作价值函数优化策略
$\epsilon \leftarrow \frac{1}{k} \\ \pi \leftarrow \epsilon-greedy(Q)$
定理： GLIE蒙特卡罗控制会收敛到最佳的动作价值函数， $\rightarrow q_*(s,a)$

3.在轨时序差分学习

与蒙特卡罗（MC）相比，时序差分（TD）学习有几个优点

更低的方差
在线
不完整的序列

自然的想法是：在我们的控制循环中使用TD而不是MC

将TD应用于 $Q (S, A)$
使用 $\epsilon-greedy$ 策略改进
更新每一个时间步

使用Sarsa更新动作价值函数

$\begin{aligned} & q_\pi(s, a)=\mathbb{E}_\pi\left[G_t \mid S_t=s, A_t=a\right] \\ & =\mathbb{E}_\pi\left[R_{t+1}+\gamma q_\pi\left(S_{t+1}, A_{t+1}\right) \mid S_t=s, A_t=a\right] \end{aligned}$

$\leftarrow Q(S, A)+\alpha\left(R+\gamma Q\left(S^{\prime}, A^{\prime}\right)-Q(S, A)\right)$

在轨策略控制中的Sarsa算法

Sarsa收敛于最优动作价值函数， $\rightarrow q_*(s,a)$ ，满足以下条件：

任何时候的策略 $\pi_t(a \mid s)$ 符合GLIE特性
步长系数 $\alpha_t$ 满足：

$\begin{aligned} & \sum_{t=1}^{\infty} \alpha_t=\infty \\ & \sum_{t=1}^{\infty} \alpha_t^2<\infty \end{aligned}$

4.离轨学习之Q学习

离轨学习

目标策略：用来学习的策略，要进行学习的智能体（玩游戏的菜鸟）

行为策略：生成行动样本的策略，实际操作的智能体（玩游戏的高手）

评估目标策略 $\pi(a\mid s)$ 以计算 $V_\pi(s)$ 或 $q_\pi(s,a)$

同时遵循行为策略 $\mu(a \mid s)$
$\{S_1, A_1, R_2, \dots, S_r\} \sim \mu$
通过行为策略来更新 $v_\pi$ 和 $q_\pi$

为什么这很重要？

通过观察人类或其他智能体来学习
重用从旧策略 $\pi_1,\pi_2,\dots,\pi_{t-1}$ 生成的经验
在遵循探索性策略的同时学习最优策略，探索性是指行为策略产生者还在继续进行操作，可供目标策略学习者去学习

Q-学习

现在考虑基于动作价值 $Q (s, a)$ 的离轨学习

使用行为策略 $A_t \sim \mu(\cdot \mid S_t)$ 选择下一个动作，产生 $R_{t+1}$ 与 $S_{t+1}$

考虑基于替代策略 $\pi$ 的后续动作 $A^\prime \sim \pi(\cdot \mid S_t)$

并将 $Q(S_t,A_t)$ 更新为替代策略动作的价值
$\left.Q\left(S_t, A_t\right) \leftarrow Q\left(S_t, A_t\right)+\alpha ( R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right)-Q\left(S_t, A_t\right)\right)$
在Sarsa中， $A^\prime$ 和 $A_t$ 都是“我自己”干的。

在Q学习中， $A^\prime$ 是目标策略也就是“我自己”干的， $A_t$ 是行为策略“别人”干的

使用Q-学习的离轨控制

现在允许行为和目标策略都得到优化

目标策略 $\pi$ 是贪婪的 $w . r . t .$ $Q (s, a)$
$\pi(S_{t+1})=\underset{a^{\prime}}{\operatorname{argmax}} Q\left(S_{t+1}, a^{\prime}\right)$
行为策略 $\mu$ 是 $\epsilon-greedy$ 的 $w . r . t .$ $Q (s, a)$

然后Q-Learning目标简化为，计算 $G_t$ ：
$\begin{aligned} & R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right) \\ = & R_{t+1}+\gamma Q\left(S_{t+1}, \underset{a^{\prime}}{\operatorname{argmax}} Q\left(S_{t+1}, a^{\prime}\right)\right) \\ = & R_{t+1}+\max _{a^{\prime}} \gamma Q\left(S_{t+1}, a^{\prime}\right) \end{aligned}$
目标策略和行为策略共享 $Q$ ，行为策略带有探索，目标策略利用行为策略产生的 $R_{t+1}$ 和 $S_{t+1}$ ，通过贪婪方法找到使 $Q$ 最大的 $a^\prime$ ，然后来更新 $Q$

$\leftarrow Q(S, A)+\alpha\left(R+\gamma \max _{a^{\prime}} Q\left(S^{\prime}, a^{\prime}\right)-Q(S, A)\right)$

Q-Learning离轨控制算法

第五步中，根据从Q得到的策略，这个策略是行为策略，选择了动作A，得到了 $R$ 和 $S^\prime$ ，这个 $R$ 和 $S^\prime$ 都是和行为策略有关，然后根据这个 $S^\prime$ 去遍历所有动作（贪婪方法，也就是目标策略），找到使 $Q$ 最大的动作 $A^\prime$ ，然后来更新 $Q$ ，这个 $A^{'}$ 不会影响行为策略的下一步，只是用来更新 $Q$ 的。这个 $Q$ 是行为策略和目标策略共享的。