强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)

最新推荐文章于 2023-06-23 10:23:13 发布

SpadeA_Iverxin

最新推荐文章于 2023-06-23 10:23:13 发布

阅读量1.3k

点赞数 1

分类专栏：论文阅读文章标签：人工智能

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/104373810

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

文章目录

Introduction
- 概念
- - On-Policy learning
  - Off-Policy learning
Monte-Carlo Control
TD Control
Off-Policy learning(借鉴学习策略)
- Q-learning

Introduction

前面所说的MC、TD、TD( $\lambda$ )都是不依赖模型的情况下如何预测。即求解给定策略下的状态价值或者行为价值函数。

现在所有解决的问题是： 不基于模型条件下，如何优化个体学习的价值函数，同时提升自身策略，是不基于模型的控制问题

一些可以解决的问题：

电梯调度
直升机特技飞行
机器人行走
打电子游戏

特点：

MDP模型未知，但是可以利用经验。
MDP模型已知，但是问题规模过大。

概念

On-Policy learning

Learn On the job。利用当前的去学习
利用策略 $\pi$ 所得到的经验去优化策略 $\pi$

Off-Policy learning

“站在巨人的肩膀上学习”
利用其它的策略所获得的经验去学习优化策略 $\pi$

Monte-Carlo Control

问题1：使用行为价值函数代替状态价值函数

控制过程就是策略优化的过程。可以按照动态规划的思路。在价值函数策略更新之间不断的迭代。最终达到最优。

在这里插入图片描述

如果想要达到这个效果，就需要求出在策略 $\pi$ 下状态价值函数V。

贪婪策略基于状态价值的更新，需要知道整个MDP模型。因为
$\pi'(s) = argmax_{a \in A} (R_s^a + P_{ss'}^a V(s'))$

贪婪策略基于行为价值函数的更新：

$\pi'(s) = arg max_{a\in A}Q(s,a)$

可见基于行为价值函数的策略更新，是不需要知道模型信息的，无需各个状态之间的转换概率 $P_{ss'}^a$ 。是model-free。MC算法本身就是就是model-free的。所以使用Q状态价值函数更加方便。

问题2：使用贪婪算法的局限性

动态规划中，第一次使用uniform random policy（均一随机策略），一次迭代之后，开始使用贪婪策略加快速度。最终能够收敛到最优解。

但是在model free中，由于不知道整体的环境，一般不能收敛到最优解，有可能落到局部最优。如果价值更高的状态使用贪婪算法将无法探索到，价值低的也很难再次被经历。

例

有很多品牌的糖果。小明一开始购买了品牌A的某一个口味，打分5.0。然后又买了B品牌的某个口味，觉得很好吃，打了9分。如果是贪婪策略，第三次小明应该还是购买B品牌，这次打分6分。经过三次之后，A品牌平均分是5纷，B品牌是7.5平均分。所以贪婪策略告诉小明第四次还是B品牌，这次打分是7分。

B一定比A好吗？不一定，因为小明只尝试了A品牌的某个口味的，可能其他的都更好。

B一定是最好的吗？不，还有很多品牌没有尝试，所以就不能够作为参考。

解决方案： $\epsilon-greedy$

解决这个问题的方法就是使用不完全贪婪策略( $\epsilon-greedy$ )。

在每次进行选择时，

$\epsilon$ 的概率去随机选择，从而保证探索的广度。
(1- $\epsilon$ )的概率去使用贪婪策略。

在策略 $\pi$ ，状态s下，执行动作a的概率：

$KaTeX parse error: Undefined control sequence: \cal at position 86: … argmax_{a \in \̲c̲a̲l̲ ̲A} Q(s,a)\\ \ep…$
定理证明：

不完全贪婪算法得到的状态价值是递增的
在这里插入图片描述

GLIE

Greedy in the Limit with Infinite Exploration

所有的状态动作对都被探索无数次
$\lim_{k \rightarrow \infin} N_k(s,a) = \infin$
随着采样趋向于无穷，策略收敛于贪婪策略
$KaTeX parse error: Undefined control sequence: \cal at position 66: …rg\max_{a' \in \̲c̲a̲l̲ ̲A}Q_k(s,a'))$

定理：

GLIE MC控制能收敛到最优的状态行为价值函数。

GLIE Monte-Carlo Control

第k次采样，使用策略 $\pi$ :{ $S_1,A_1,R_2, ... S_T$ } ~$ \pi$
对于每个序列中的状态和动作，例如 $S_t$ 和 $A_t$

$N(S_t,A_t) \leftarrow N(S_t, A_t) +1 \\ Q(S_t , A_t) \leftarrow Q(S_t, A_t) + \frac{1}{N(S_t,A_t)}(G_t - Q(S_t,A_t))$

基于动作价值函数提升策略
$\epsilon \leftarrow 1/k \\ \pi \leftarrow \epsilon-greedy(Q)$

定理

GLIE Monte-Carlo control 收敛于最优行为价值函数。 $\rightarrow q_*(s,a)$

TD Control

Sarsa

利用MC控制的思路：

给TD应用Q(S,A)
使用不完全贪婪策略
每个时间步都更新

SARSA名称的来历如图。

不同于MC在整个序列结束后更新。Sarsa是在每个时间步，如图，状态S之后的S‘确定采取行为A’后，对状态行为价值对Q(S,A)进行更新。

使用 $\epsilon-greedy$ 策略

算法描述

输入：episodes(序列)， $\alpha$ （学习率）, $\gamma$ (衰减因子)

输出：Q

初始化：对于每个状态集合 $KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲{s}$ 里的状态s和动作集合 $KaTeX parse error: Undefined control sequence: \cal at position 1: \̲c̲a̲l̲ ̲A(s)$ 里的动作a，任意设置Q(s,a)的值；设置Q(终止状态，·)= 0

对于每个序列：
	初始化：S=序列的第一个状态
	A= policy(Q,S) // 可以使不完全贪婪策略
	对于序列的每一步：
		R,S'= perform_action(S,A)
		A' = policy(Q,S') 
        Q(S,A) = Q(S,A) + \alpha(R+ \gamma * Q(S',A') - Q(S,A))
		S = S'; A = A';
    直到终止状态
直到所有序列都被访问

定理

当一下条件成立，Sarsa收敛到最优的行为价值函数 $\rightarrow q_*(s,a)$ :

GLIE 特性
Robbins-Monro sequence of step-sizes $\alpha_t$ （学习率满足）
$\sum_{t=1}^{\infin} \alpha_t = \infin \\ \sum_{t=1}^{\infin} \alpha_t^2 < \infin$

缺点：

Q(S,A)是用一张大表来存储，这不适合大规模问题。

$Sarsa(\lambda)$

n-step Sarsa

是根据n-step TD来的。

n-step Q-return （n步Q收获）定义

$q_t^{(n)} = R_{t+1} + \gamma R_{t+2} + ... + \gamma^{n-1}R_{t+n} + \gamma ^{n}Q(S_{t+n})$

n-step Sarsa 通过n-step Q-return 更新公式

$Q(S_t,A_t) \leftarrow Q(S_t, A_t ) + \alpha(q_t^{(n)} - Q(S_t,A_t))$

$q^\lambda$

和 $TD(\lambda)$ 类似，给n-step Q return 的每一步分配一个权重
在这里插入图片描述

$q_t^{\lambda} = (1-\lambda) \sum_{n = 1}^{\infin} \lambda^{n-1} q_t^{(n)}$

$Sarsa(\lambda)$ Forward view

使用 $q_t^ \lambda$ 收获来更新状态行为对的Q值，就可以得到 $Sarsa(\lambda)$ 前向认识
$Q(S_t,A_t) \leftarrow Q(S_t, A_t) + \alpha(q_t^{(\lambda)} - Q(S_t , A_t))$

前向认识需要遍历整个序列，再更新Q价值。

Backward View $Sarsa(\lambda)$

和 $TD(\lambda)$ 类似，在online算法中使用效用迹(eligibility traces)
但，对于每个状态行为价值对， $Sarsa(\lambda)$ 都有一个eligibility trace
$E_0(s,a) = 0 ;\\ E_t(s,a) = \gamma \lambda E_{t-1}(s,a) + 1(S_t = s, A_t = a)$
体现的是一个结果与某个状态行为对的因果关系
更新公式：( $\delta_t$ 是TD-error， $E_t(s,a)$ 是Eligibility trace)
$\delta_t = R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(S_t, A_t) \\ Q(s,a) \leftarrow Q(s,a) + \alpha \delta_t E_t (s,a)$

$Sarsa(\lambda)$ 算法描述

在这里插入图片描述

Off-Policy learning(借鉴学习策略)

通过策略 $\mu(a|s)$ 生成行为，但是更新状态行为对的价值时采用目标策略 $\pi(a|s)$ 。目标策略 $\pi$ 是一个相对更好的策略。例如借鉴人的已有经验或者其他的agent所学内容。

包括基于MC的和基于TD的。基于MC目前仅有理论上的研究价值。实际应用不大。

Q-learning

估计不同分布的数学期望

$\mathbb E_{X \sim P}[f(x)] = \sum P(x)f(x) \\ =\sum Q(x) \frac{P(x)}{Q(x)}f(x) \\ = \mathbb E_{X\sim Q} [\frac{P(x)}{Q(x)}f(x)]$

TD Q-learning

状态价值函数公式

$V(S_t) \leftarrow V(S_t) + \alpha (\frac{\pi(A_t|S_t)}{\mu(A_t|S_t)} (R_{t+1} + \gamma V(S_{t+1})) - V(S_t))$

理解：

在状态S_t 中，按照策略 $\mu$ 产生了一个行为 $A_t$ , 执行这个行为后进入状态 $S_{t+1}$ 。

$\mu(A_t|S_t)$ 代表行为策略在状态 $S_t$ 下产生动作 $A_t$ 的概率

$\pi(A_t | S_t)$ 代表借鉴的策略在状态 $S_t$ 下产生动作 $A_t$ 的概率

如果两个策略下的概率比值接近1，说明这两种策略在状态 $S_t$ 时采取 $A_t$ 的概率是相同的。
如果比值很小，说明借鉴策略和当前策略所做选择很大程度都不一样。没有借鉴的意义，系数很小。
如果比值很大，说明借鉴策略选择行为 $A_t$ 的可能性要大于当前策略，所以很有借鉴意义，系数很大。

转换状态行为对价值函数Q(s，a)

当前动作下一个状态是根据策略 $\mu$ 来的。即 $A_{t+1} \sim \mu(· | s)$
认为接下来的可替换的动作 $\sim \pi(· | S_t)$
通过可替换动作A’来更新 $Q(S_t, A_t)$
$Q(S_t, A_t) \leftarrow Q(S_t,A_t) + \alpha (R_{t+1} + \gamma Q(S_{t+1}, A') - Q(S_t,A_t))$

行为策略 $\mu$ 是基于行为价值函数 $\epsilon-$ 贪婪策略

借鉴策略 $\pi$ 则是基于 $Q (s, a)$ 的完全贪婪策略。

$R_{t+1} + \gamma Q(S_{t+1}, A’) $KaTeX parse error: Undefined control sequence: \是 at position 1: \̲是̲基于**借鉴策略$ \pi $产生的行为A' 得到的Q值。根据这种更新方式，状态S_t依据**不完全贪婪策略**得到的行为A_t的价值将朝着下一个状态$ S_{t+1}$下贪婪策略确定的方向按照一定比例更新。

这样既能够保证 $\mu$ 策略更加接近贪婪策略，同时保证个体持续探索并经历足够丰富的新状态。