Model-Free Control

最新推荐文章于 2022-10-11 21:47:33 发布

从流域到海域

最新推荐文章于 2022-10-11 21:47:33 发布

阅读量855

点赞数 1

分类专栏：强化学习文章标签： Model-Free Control RL

本文链接：https://blog.csdn.net/Solo95/article/details/102712072

版权

强化学习专栏收录该内容

28 篇文章

订阅专栏

Control(making decisions) without a model of how the world works.
Control的意思是寻求最佳策略，这可以被视为对agent的一种控制。

Evaluation to Control

前面的博文介绍了如何衡量一个特定的策略(即对它进行评估)

没有给予访问决策过程模型参数的权限
取而代之的是，能够从数据/经验中估计

这篇博文：如何学习一个好的策略

Recall: Reinforcement Learning Involves

优化(Optimization) (这里涉及)
效果延迟(Delayed consequences) (planning阶段)
探索(Exploration) (这里涉及)
泛化(Generalization目前不涉及）

Learning to Control Involves

优化：目标是找出一个具有高回报的策略(跟给定决策过程模型计算最优策略相似)
效果延迟：可能需要很多个时间步才能评估之前的决定是好是坏
探索：需要尝试不同的动作去学习什么样的动作能带来高回报

Model-free Control Examples

许多应用可以被建模为MDP：Backgammon，围棋，机器人定位，直升机飞行，机器人足球运动员，自动驾驶，客户广告选择，入侵物种管理，病患治疗。

对于上述及其他的一些问题：

MDP模型未知但可以被采样
MDP模型已知但是直接计算上不可行，除非采样

On and Off-Policy Learning

On-policy learning
- 直接经验
- 学习去通过遵循一个策略得到的经验估计和评估该策略
Off-Policy learning
- 学习去通过遵循一个其他的策略得到的经验估计和评估一个策略。

Off-Policy的一个例子：

已有：
$s_1,a_1,s_1,a_1$
$s_1,a_2,s_1,a_2$

可以使用这两个策略来评估下面这个策略：
$s_1,a_1,s_1,a_2$

很容易理解，因为下面这个policy由第一个policy的左半部分加第二个右半部分组成，你可以利用这两个policy的数据对目标policy做评估。

Generalized Policy Iteration

回顾策略迭代：

Initialize policy $\pi$
Repeat:
- Policy evaluation: Compute $V^\pi$
- Policy improvement: update $\pi$
  $\pi'(s)=\mathop{argmax}\limits_{a} R(s,a) + \gamma\sum_{s'\in S}P(s'|s,a)V^\pi(s') = \mathop{argmax}\limits_{a} Q^\pi(s,a)$

一般而言这个算法会初始化一个随机策略，该算法能保证单调的策略提升，最多需要迭代 $A|^{|s|}$ 得到最优策略。

现在，我们想在没有权限访问真实的动态和回报模型的条件下实现上面的两个步骤。

而且在前面的博文里也已经介绍了model-free policy evaluation。

Model Free Policy Iteration

Initializ policy $\pi$
Repeat:
- Policy evaluation: compute Q $^{\pi}$

$Q$ always represent $Q (s, a)$ , as the value of taking action a in state s.

MC for On Policy Q Evaluation

Initialize $Q^\pi(s,a) = 0, \forall s \in S, \forall a \in A$
Loop
- 使用策略 $\pi$ 采样周期 $i=s_{i,1},a_{i,1},r_{i,1},s_{i,2},a_{i,2},r_{i,2},...,s_{i,T_i}$
- $G_{i,t}=r_{i,t}+\gamma r_{i,t+1}+\gamma^2r_{i,t+2}+...+\gamma^{T_i-1}r_{i,T_i}$
- For each state,action pair $(s, a)$ visited in episode i
  - For first or every time t that $(s, a)$ is visited in episode i
    - $N (s, a) = N (s, a) + 1, G (s, a) = G (s, a) + 1$
    - Update estimate $Q^\pi(s, a) = G(s,a)/N(s,a)$

和MC for policy evaluation相比非常类似，但由评估一个状态的价值变成了评估状态-动作二元组的Q值：

N计数二元组 $(s, a)$ 而不是 $s$
G表示二元组 $(s, a)$ 的奖励而不是 $s$
V函数变成了Q函数

Model-free Generalized Policy Improvement

Given an estimate $Q^{\pi_i}(s,a) \ \forall(s,a)$
Update new policy
- $\pi_{i+1}(s) = \mathop{argmax}\limits_{a}Q^{\pi_i}(s,a)$

这里提到的所有的策略都假定所有的world都是马尔科夫的。策略都是仅仅从当前状态映射到动作，它们不是历史的函数。

Model-free Policy Iteration

Initialize policy $\pi$
Repeat：
- Policy Evaluation: compute $Q^\pi$
- Policy improvement: update $\pi$ given $Q^\pi$

可能需要修改策略评估：

如果 $\pi$ 是确定的，不能计算任何 $\not=\pi(s)$ 的 $Q (s, a)$

如何交替执行策略评估和改进？

策略改进当前在使用一个估计的Q值

Importance Of Exploration

Policy Evaluation with Exploration

希望计算不依赖模型的一个 $Q^\pi$ 的估计。
通常看起来是巧妙的：

需要尝试所有的 $(s, a)$ 二元组但还要接着遵循 $\pi$
希望确保得到结果的估计 $Q^\pi$ 是足够好的，以使得策略改进是一个单调的操作符

对于某些种类的策略来说，能够确保所有的 $(s, a)$ 对都被尝试过，使得渐进地 $Q^\pi$ 收敛到真实值。

$\epsilon$ -greedy Policies

非常简单的平衡探索(Explotation)和利用(Exploitation)的思想是通过确保整个过程随机来实现的。

实际上这个策略在论文里一般一句话就可以概括: $\epsilon$ -greedy policy that selects a random action with probability $\epsilon$ or otherwise follows the greedy policy $\mathop{argmax}\limits_{a}Q^\pi(s,a)$

简单的去平衡探索和利用的思想
记 $∣ A ∣$ 是所有可能的动作的数量
那么针对state-action的价值 $Q^\pi(s,a)$ 的 $\epsilon$ -greedy策略是:
$\pi(a|s) = \begin{cases} \mathop{argmax}\limits_{a}Q^\pi(s,a) \quad with \ probability \ 1-\epsilon \\ a \qquad \qquad \qquad \qquad with \ probability \ \frac{\epsilon}{|A|} \end{cases}$

这是一个非常简单的策略，但好的地方在它够用了。

例题

在这里插入图片描述
$Q(-, a_1)=[1 0 1 0 0 0 0]$
$Q(-, a_2)=[0 0 1 0 0 0 0]$

首先是first-visit算法，然后在 $s_1$ 采取动作 $a_1$ 能得到回报1，所以所有采样得到的 $s, a$ 对都是1，所有没有采样到的都是0。

Every-visit算法下的该例结果也一样，但不是说first-visit和every-visit就没有什么区别，只是在这个例子里计算结果恰好相同而已。

证明 $\epsilon$ -greedy策略能单调提升

在这里插入图片描述

Greedy in the Limit of Infinite Exploration(GLIE)

证明了 $\epsilon$ -greedy确实能确保单增之后，我们能有什么样的保证呢？

GLIE的定义

所有的state-action对都是无限次的被访问即
$\mathop{lim}\limits_{i\rightarrow \infty}N_i(s,a) \rightarrow \infty$
那么行为策略会收敛到贪心策略
$\mathop{lim}\limits_{i\rightarrow \infty} \pi(a|s) \rightarrow \mathop{argmax} \ Q(s,a) \quad with probablity \ 1$
即百分之百收敛到贪心策略
一个简单的GLIE策略是 $\epsilon$ -greedy，其中 $\epsilon$ 以 $\epsilon_i = \frac{1}{i}$ 的比率逐渐减小到0

补充点：你可以保证在没有收敛到最佳策略的条件下收敛到最佳的Q函数，保持高的 $\epsilon$ 值能获得大量最优Q函数是什么样的信息，但是不一定遵循相应的策略。稍后会解释，这里先提一提。

Monte Carlo Control

Monte Carlo Online Control / On Policy Improvement

$\ Initialize Q(s,a)=0, N(s,a)=0 \ \forall(s,a), Set \ \epsilon = 1\ k = 1$
$\ \pi_k = \epsilon-greedy(Q)$ // create intial epsilon-greedy policy
$\ loop$
$\ \quad$ Sample k-th episode $(s_{k,1},a_{k,1},r_{k,1},s_{k,2}...,s_{k,\Tau})$
$\ \quad G_{k,t}=r_{k,t}+\gamma r_{k,t+1}+\gamma^2 r_{k,t+2}+...+\gamma^{\Tau_{i-1}}r_{k,\Tau_i}$
$\ \quad for \ t = 1,....,\Tau \ do$
$\ \quad \quad if$ First visit to $(s, a)$ in epsilon $k$ $t h e n$
$\ \quad \quad \quad N(s,a)=N(s,a)+1$
$\ \quad \quad \quad Q(s_t,a_t)=Q(s_t,a_t)+\frac{1}{N(s,a)}(G_{k,t}-Q(s_t,a_t))$
$\ \quad \quad end if$
$\ \quad end for$
$\ \quad k = k+1, \ \epsilon=\frac{1}{k}$
$\ \quad \pi_k=\epsilon-greedy(Q)$ // Policy improvement
$14 : e n d l o o p$

例题

在这里插入图片描述
Q1：
$\pi_greedy \quad \ 1 \ 2 \ 1 \ tie...$
$s_1,s_3$ 都选 $Q^{\epsilon-\pi}(-,a_1)$ ， $s_2$ 选 $Q^{\epsilon-\pi}(-,a_2)$ ，这时候 $G=Q(s_3,a_1)+Q(s_2,a_2)=2$ ，那么 $Q^{\epsilon-\pi}(s_2,a)=\frac{1}{2}$

Q2:
三分之一的概率随机选择一个动作，三分之二的概率选择 $\pi$ 贪心策略。

GLIE Monte-Carlo Control

定理：
GLIE Monte-Carlo control 收敛到最优的state-action价值函数 $\rightarrow Q^{*}(s,a)$

Model-free Policy Iteration

回顾前面的：

Initialize policy $\pi$
Repeat：
- Policy Evaluation: compute $Q^\pi$
- Policy improvement: update $\pi$ given $Q^\pi$

那么TD方法是怎么做的呢？
$V^\pi(s)=V^\pi(s)+\alpha(r+\gamma V^\pi(s')-V^\pi(s))$
每次迭代采样 $r+\gamma V^\pi(s')$ 并bootstrap。

所以TD learning有两个关键点，即bootstraping和sampling都要做。但在蒙特·卡罗尔只做sampling。TD的优势在于每获得一个元组就可以更新，而不必等到当前整个周期结束。

把V替换成Q，就是TD版本的Policy control。

Model-free Policy Iteration with TD Methods

在这里插入图片描述

SARSA Algorithm

SARSA代表state，action，reward，next state，action taken in next state，算法在每次采样到该五元组时更新，所以得名SARSA。

$1:\ Set$ Initial $\epsilon$ -greedy policy $\pi,t=0$ , initial state $s_t=s_0$
$2:\ Take \ a_t \sim \pi(s_t)$ // Sample action from policy
$3:\ Observe \ (r_t, s_{t+1})$
$4:\ loop$
$5:\ \quad Take$ action $a_{t+1}\sim \pi(s_{t+1})$
$6:\ \quad Observe \ (r_{t+1},s_{t+2})$
$7:\ \quad Q(s_t,a_t) \leftarrow Q(s_t,a_t)+\alpha(r_t+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t))$
$8:\ \quad \pi(s_t) = \mathop{argmax}\limits_{a} \ Q(s_t,a) \ w.prob\ 1-\epsilon, else \ random$
$9:\ t=t+1$
$\ loop$
在这里插入图片描述

Q-learing: Learning the Optimal State-Action Value

我们能在不知道 $\pi^*$ 的情况下估计最佳策略 $\pi^*$ 的价值吗？

可以。使用Q-learning。

核心思想: 维护state-action Q值的估计并且使用它来bootstrap最佳未来动作的的价值。

回顾SARSA
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha((r_t+\gamma Q(s_{t+1},a_{t+1}))-Q(s_t,a_t))$

Q-learning
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha((r_t+\gamma \mathop{max}\limits_{a'}Q(s_{t+1},a')-Q(s_t,a_t)))$

Off-Policy Control Using Q-learning

在上一节中假定了有某个策略 $\pi_b$ 可以用来执行
$\pi_b$ 决定了实际获得的回报
现在在来考虑如何提升行为策略(policy improvement)
使行为策略 $\pi_b$ 是对(w.r.t)当前的最佳 $Q (s, a)$ 估计的- $\epsilon$ -greedy策略

Q-learning with $\epsilon$ -greedy Exploration

$1:\ Intialize \ Q(s,a), \forall s \in S, a \in A \ t=0,$ initial state $s_t=s_0$
$2:\ Set \ \pi_b$ to be $\epsilon$ -greedy w.r.t. Q$
$3:\ loop$
$4:\ \quad Take \ a_t \sim\pi_b(s_t)$ // simple action from policy
$5:\ \quad Observe \ (r_t, s_{t+1})$
$6:\ \quad Update \ Q$ given $s_t,a_t,r_t,s_{t+1})$
$7:\ \quad Q(s_r,a_r) \leftarrow Q(s_t,r_t)+\alpha(r_t+\gamma \mathop{max}\limits_{a}Q(s_{t1},a)-Q(s_t,a_t))$
$8:\ \quad Perform$ policy impovement: $\ \pi_b$ to be $\epsilon$ -greedy w.r.t Q
$9:\ \quad t=t+1$
$\ loop$

如何初始化 $Q$ 重要吗？
无论怎样初始化 $Q$ (设为0，随机初始化)都会收敛到正确值，但是在实际应用上非常重要，以最优化初始化形式初始化它非常有帮助。会在exploration细讲这一点。

例题

在这里插入图片描述

Maximization Bias $^1$

即使在使用Q-Learning时，都是采用无偏估计器，最终得到的结果也会是有偏的，证明如下：
在这里插入图片描述

Maximization Bias $^2$

MDPs上同样也会发生这个问题。
在这里插入图片描述

Double Q-Learning

为了解决上面的问题，提出了Double-Q Learning的方法：

有限采样学习时应用于估计Q值的贪心策略会产生一个最大化偏差
所以要避免使用估计的最大值最为真实值最大值的估计
因此我们把采样分成两部分，并使用它们创建两个独立的无偏估计 $Q_1(s_1,a_i)$ 和 $Q_2(s_1,a_i)$
- 使用一个估计来选择最大动作： $a^*=argmax_a Q_1(s_1,a)$
- 使用另一个估计 $a^*$ 的值： $Q_2(s,a^*)$
- 产生一个无偏估计： $\mathbb{E}(Q_2(s,a^*))=Q(s,a^*)$
为什么这产生了一个最大state-action价值的无偏估计？
如果是在线采取动作的，这能交替的采样去更新 $Q_1$ 和 $Q_2$ ,用另外一个去选择动作
下一个小节将扩展到全MDP例子(超过一个状态)

Double Q-Learning

这个算法仅供你参考，实际实现不是按照下面的算法而来的，而是通常更改TD target来实现的。

$1:\ Intialize \ Q_1(s,a)$ and $Q_2(s,a), \forall s \in S, a \in A \ t=0,$ initial state $s_t=s_0$
$2:\ loop$
$3:\ \quad Select$ $a_t$ using $\epsilon$ -greedy $\pi(s)=argmax_a Q_1(s_t,a)+Q_2(s_t,a)$
$4:\ \quad Observe \ (r_t,s_{t+1})$
$5:\ \quad if$ (with 0.5 probability) then
$6:\ \quad \quad Q_1(s_a,a_t) \leftarrow Q_1(s_t,a_t)+\alpha$
$7:\ \quad else$
$8:\ \quad \quad Q_2(s_t,a_t) \leftarrow Q_2(s_t,a_t)+\alpha$
$9:\ \quad end if$
$10:\ \quad t= t+1$
$\ loop$
在这里插入图片描述

Q-Learning和Double Q-Learnig的区别：
在这里插入图片描述

Recall: Off Policy, Policy Evaluation

给定遵循行为策略 $\pi_b$ 的数据，我们能估计另外一个行为策略 $\pi_e$ 的价值 $V^{\pi_e}$ 吗？
优雅的思想：我们能学习与我们真正使用的做事情的某方法不同的其他方法来做事情的方法吗？
思考一下对Monte Carlo评估来说如何实现这点: 使用重要性采样
先来看一下怎么使用TD做off policy评估

Importance Sampling for Off Policy TD (Policy Evaluation)

回顾时序差分(TD)算法，它用于对策略 $\pi_b$ 进行递增式无模型评估。更确切地讲，给定从 $\pi_b(s_t)$ 采样的一个状态 $s_t$ ，一个动作 $a_t$ 和观察到的回报 $r_t$ 和下一个状态 $s_{t+1}$ ，TD执行下列更新：
$V^{\pi_b}(s_t)=V^{\pi_b}(s_t)+\alpha(r_t+\gamma V^{\pi_b}(s_{t+1})-V^{\pi_b}(s_t)))$

现在想使用从遵循 $\pi_b$ 采样而来的数据去估计一个不同的策略 $\pi_e$ 的价值估计 $V^{\pi_e}$

通过单步重要采样比率变更TD target $r_t+\gamma V(s_{t+1})$ 到加权目标

新的更新方式：
$V^{\pi_e}(s_t)=V^{\pi_e}(s_t)+\alpha[\frac{\pi_e(a_t|s_t)}{\pi_b(a_t|s_t)}(r_t+\gamma V^{\pi_e}-V^{\pi_e}(s_t))]$

Importance Sampling for Off Policy TD Cont.

Off Policy TD update:
$V^{\pi_b}(s_t)=V^{\pi_b}(s_t)+\alpha(r_t+\gamma V^{\pi_b}(s_{t+1})-V^{\pi_b}(s_t)))$
比MC IS相比更小得多得多的方差(为什么?)
$\pi_b$ 在每一个时间步都必须是一样的吗？
Off Policy TD收敛到 $V^{\pi_e}$ 需要 $\pi_b$ 和 $\pi_e$ 满足什么条件呢？