强化学习RL总结篇（李宏毅老师2020强化学习6-11完结）

最新推荐文章于 2024-06-16 09:30:36 发布

阿芒Aris

最新推荐文章于 2024-06-16 09:30:36 发布

阅读量3.7k

点赞数 3

分类专栏：课程向文章标签：深度学习强化学习 1024程序员节

本文链接：https://blog.csdn.net/qq_44574333/article/details/109186122

版权

课程向专栏收录该内容

75 篇文章 56 订阅

订阅专栏

李宏毅老师2020强化学习——总结篇（6-11）

李宏毅老师2020强化学习课程（课件）主页：
http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
其中的Deep Reinforcement Learning部分
视频链接地址：
https://www.bilibili.com/video/BV1UE411G78S

注！！！：本总结篇仅供大家快速了解这门课，每一篇都会是笔者听后总结，这门强化学习的课程无论是数学原理还是方法讲的都非常清晰！强烈建议详细学习的读者还是请自行一一观看学习。

以下顺序均严格参照视频顺序，无缺无改

6 Q-Learning-1

6.1 Critic

在这里插入图片描述
Critic是衡量在state s情况下这个actor有多好，是一种比较程度的好坏。而 $V_\pi$ 得到的值既取决于actor $\pi$ ，又取决于当前的state s。

有两种方法可以评估 $V^{\pi}(s)$

Monte-Carlo based approach

MC based方法，根据 $s_a$ 获得的reward的累计值 $G_a$ ，通过输入 $s_a$ 线性回归预测，预测值即为 $V^{\pi}(s_a)$

注意，累计值 $G_a$ 是要游戏玩到结束才能得到的估测值

Temporal-difference (TD) approach

MC based方法要游戏结束才能更新游戏，对于有些非常长的游戏可能收集不到太多的数据。因此引入了TD based方法，不需要游戏玩到底就可以更新参数。

此时的训练目标就是希望通过 $V^{\pi}$ 神经网络对 $s_t,s_{t+1}$ 预测出来的 $V^{\pi}({s_t})与V^{\pi}({s_{t+1}})$ 的差值越接近 $r_t$ 越好

MC vs TD

在这里插入图片描述

MC的问题就是具有很大的variance，因为在玩游戏的时候本身就有随机性的，同样的s和a最后得到的 $G_{a}$ 每次收集时其实是不一样的。每次得到的 $G_{a}$ 的差别会很大，因为 $G_a$ 是由很多steps累加得到的。

而TD的方法又存在每一步的 $V^{\pi}_{s_t}$ 不一定估计得准，但它的variance只有一个step的variance

Another Critic

State-action value function $Q^{\pi}(s,a)$
在这里插入图片描述
在state s 强制使用action a基础上，在接下来的情况下均一直使用actor $\pi$ 所能得到的Reward的预测就是 $Q_{\pi}$ ，左侧是连续值的方法，右侧是种类值的方法。

Q-Learning

在这里插入图片描述
Q-Learning的方法就是上图的一个循环，在state s 强制使用action a基础上，用 $\pi$ 一直与环境互动通过TD或MC方法得到 $Q_{\pi}$ ，在此时是一定能找到更好的 $\pi'$ 使得 $V_{\pi'}>V_{\pi}$ 。

假设我们已经训练好了 $Q^{\pi}_{s,a}$ ，把所有可能的action a都一一带入这个Q function中，看哪个a能让Q最大。其实根本就没有 $\pi'$ ，它就是Q fuction推出来的

Tip1

在这里插入图片描述

Tip2

在这里插入图片描述

Tip3

在这里插入图片描述

Q-Learning Algorithm

在这里插入图片描述
Q-Learning，最开始初始化两个神经网络Q和Q‘，Q=Q’

在每一个episode（agent在环境里面执行某个策略从开始到结束）中：
每次互动中，都得到一个state $s_t$ ，会根据Q（有epsilon greedy机制）采取action $a_t$
得到reward $r_t$ ，跳到state $s_{t+1}$
将 $s_t,a_t,r_t,s_{t+1})$ 存入buffer中
接下来从buffer中随机采样一组数据（通常是一个batch），是有可能抽到旧的或刚放入的
根据采样得到的数据计算Target y
更新Q的值，使得 $Q(s_i,a_i)$ 和y的值越接近越好（线性回归）
在更新了C次后，就将Q‘ = Q

7 Q-Learning-2

7.1Tips in Q-Learning

Double DQN

问题：Q 的估计值往往都大于实际值
在这里插入图片描述
在Double DQN中，将有两个Q，一个用于更新参数并决定选择哪个a，另一个参数固定来评估当前的Q值。

Dueling DQN

Dueling DQN是改Network的架构

在这里插入图片描述
将原本的Q改成两个部分V和A的和，其中A要有限制列和为0

还有 Prioritized Reply、Multi-step、Noisy Net、Distributional Q-function

8 Q-Learning-3

Q-Learning for Continous Actions
$a = \argmax_aQ(s,a)$
当Action a 是一个连续值的向量时：有这样的解决办法

Sample，随机采样大量可能的a，一个一个代入到Q中看哪个a能使Q的值最大
Gradient Ascent，用梯度提升方法去更新a，使得Q最大，当这样可能会遇到global maximum问题
Design a network
Don‘t use Q-learning

9 A3C

A3C

在这里插入图片描述
对于Policy Gradient而言，reward的梯度如上图所示。但在这其中是需要我们用采样的方式估计 $G_t^n$ 的值，这种方法不稳定。

在这里插入图片描述
因此有了Value-based的方法，Q-Learning
有两种critic

$V^{\pi}(s)$ ：当看到state s，接下来一直用action $\pi$ 与环境互动看累积的reward期望值有多少
$Q^{\pi}(s,a)$ ：当看到state a，采取action a做互动，policy接下来一直用action $\pi$ 互动，最终累积的reward期望值有多少

在这里插入图片描述

在实验中证明，将期望直接去掉的替换方式效果最好

A3C训练过程如上，根据初始参数 $\pi$ 去和环境互动，用MC或TD方法估算V，根据V的值与R的梯度去更新参数使得policy变成 $\pi'$ ，再用 $\pi'$ 去和环境互动，用MC或TD方法估算V，根据V的值与R的梯度去更新参数使得policy变成 $\pi'$ …
在这里插入图片描述
第一个tip是对于我们需要训练的两个神经网络， $\pi(s)与V^{\pi}(s)$ 这两者的输入都是相同的，都是state s，故可以将两者的神经网络前面层的参数共享

第二个tip是要对得到 $\pi(s)$ 的结果做规范化，使得每个action $\pi$ 都有机会被使用

在这里插入图片描述
A3C的精神就是同时开很多个Worker，最后所有的worker会把经验集合在一起。

Pathwise Derivative Policy Gradient

一种解决Q-Learning连续值的方法
在这里插入图片描述

10 Sparse Reward

用强化学习训练Agent的时候，有时候是没有办法得到Reward的，这样的训练是非常困难的，也就是Sparse Reward。

I Reward Shaping

Reward Shaping是指环境有一个固定Reward，为了引导Agent，人类刻意设计Reward。而这种Reward Shaping有些是需要Domain Knowledge的。

比如这样的Reward Shaping，叫Curiosity
在这里插入图片描述
不仅有Reward $r_1$ 还有由ICM产生的Reward $r_1^i$ ，这个ICM就表示好奇心，ICM的设计如下

在这里插入图片描述

这个ICM的设计思想是这样的，Network 1通过 $a_t,s_t$ 去预测未来出现的 $\hat{s}_{t+1}$ ,如果预测的 $\hat{s}_{t+1}和实际的{s}_{t+1}$ 差别越大，则ICM的值越大，表示如果未来的state越难被预测Reward就越大，鼓励冒险。

但仅仅这样是不够的，不是说只要未来越难预测就应该越好，因为有时候难预测的可能是环境中一些无关因素如风吹草动，如果仅仅越难预测就选择这种Action的话可能导致机器就一直等待看风吹草动。还需要加限制，通过Feature Ext滤掉环境中无关因素。Network 2对经过Feature Ext滤掉无关因素的 $\hat{s}_{t+1}和{s}_{t+1}$ 进行预测 $\hat{a}_t$ ，希望这个 $\hat{a}和真正的a$ 越接近越好。

II Curriculum Learning

Curriculum Learning的意思是给机器的学习做规划，使训练由简至难，如在训练RNN中，先给机器看短的sequence，再给机器看长的sequence，通常训练效果更好。

有这样一个通用的方法:Reverse Curriculum Generation，如下图
在这里插入图片描述
对于目标 $s_g$ ，找出与它相连的state，选择其中reward不大不小的 $state_1,state_2,state_3$ 等，接下来再对 $state_1$ 找出与它相连的state，也选择出其中reward不大不小的state，让机器优先学习这些state。

从目标进行反推的过程，所以叫Reverse

III Hierarchical Reinforcement Learning

在这里插入图片描述

阶层式RL，有多个阶级的Agent，一些高级Agent进行分配给下层Agent，将完成一个任务拆解成多个小任务，再将每个小任务继续拆解等。

如上图，紫色是目前的状况，粉色是当前的Agent希望它走到的位置，（顶层的Agent的希望）最终目标是黄色位置

11 Imitation Learning

在这里插入图片描述

Behavior Cloning

在这里插入图片描述
Behavior Cloning，简单的有监督学习方法解决，但这样会有一些问题

在这里插入图片描述
因为对于Expert而言，它可能永远也不会遇到即将撞墙的情况，但机器会有这样的情况，此时机器就不知道该怎么做了。
解决办法如下

在 $\pi_1$ 进行训练时，同时用Expert进行判断，比如在即将要撞墙时Expert会判断出应该向右拐，但 $\pi_1$ 并不会管，还是会继续它的方向。将Expert的判断数据作为 $\pi_2$ 的训练数据，一直如此。