强化学习--＞Deep Reinforcement Learning

最新推荐文章于 2021-01-20 18:14:03 发布

村头陶员外

最新推荐文章于 2021-01-20 18:14:03 发布

阅读量645

点赞数

分类专栏：强化学习文章标签：强化学习机器人

本文链接：https://blog.csdn.net/Mr_tyting/article/details/80246673

版权

强化学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

因为逐渐有人将强化学习应用到 $N L P$ 的任务上，有必要了解一些强化学习基础知识，本篇博文总结自台大教授李宏毅关于深度学习的公开课内容。

这里写图片描述

我们可以以上图来理解强化学习过程，我们机器人 $a g e n t$ 通过 $o b s e r v a t i o n$ 了解到环境的 $S t a t e$ ，采取一些 $A c t i o n$ ，并且改变当前的环境，然后环境会反馈正向或负向的 $r e w a r d$ 给 $a g e n t$ 。

举例来说，让机器人玩电玩游戏：

这里写图片描述

上图中 $a g e n t$ 每次动作以后都可能随机的改变了环境，并且接受到一个 $r e w a r d$ ，由此观察改变后的环境，做出相应的动作。

这里写图片描述

我们希望 $a g e n t$ 多玩几个回合，并且***希望在每个回合中最大化的 $total\ reward$ 。***

强化学习难点：

$Reward\ delay$
例如上面所举得例子里，只有在开火时，才能获得 $R e w a r d$ ， $a g e n t$ 学习的最后结果是会疯狂的开火，往左移或往右移，他觉得无所必要，但实际上移动对最后的 $total\ Reward$ 至关重要。还比如在下围棋时，短期的牺牲可能或换来最后的胜利。
$a g e n t$ 的行为，也即是 $a c t i o n$ 会影响后续他看到的环境。

Asynchronous Advantage Actor-Critic (A3C)

这里写图片描述

Policy-based Approach(Learning an Actor)

这里写图片描述

如果我们把 $neural\ network$ 当做上面所讲的 $a c t o r$ ，那么：

模型的输入：即其观察到的环境(向量、矩阵等)
模型的输出：每一类动作在最后一层以一个神经元表示，对应其输出的***概率***。

这里写图片描述

需要注意的是：在做 $policy\ gredient$ 时，是 $s t o c h a s t i c$ 式的，也就是说其 $o u t p u t$ 是一个机率，我们是一定的概率选取该动作，而不是一定选取。

那么如何决定这个 $a c t i o n$ 的好坏呢？

我们假定 $a c t o r$ 的模型为 $\pi_{\theta}(s)$ ，这个 $s$ 就是 $a g e n t$ 所看到的环境， $\theta$ 表示神经网络的参数。

我们拿这个 $a c t o r$ 实际上去玩这个游戏：

这里写图片描述

如上图所示： $a g e n t$ 玩完***一个回合*** 后，可以得到一个 $total\ Reward$ ，而由上面的描述可知，这个 $total\ reward$ 才是我们需要 $m a x i m i z e$ 对象。

因为游戏的随机性，即使每个回合都采用一样的 $a c t o r$ ，在这里就是 $a g e n t$ 模型一样，不同回合得到的 $R_\theta$ 很有可能不一样，我们记： $\bar{R}_{\theta}$ 为该 $a c t o r$ 的期望值，即使不同的回合，该 $a c t o r$ 的期望值是相同的，这个期望值就衡量了 $a c t o r$ 的好坏，好的期望值这个 $a c t o r$ 就比较好。

那么这个期望值 $R_\theta$ 如何得到呢？

假设一轮游戏所有经过表示为 $\tau$ ，则：

$\tau=\{{s_1, \alpha _1, r_1, s_2, \alpha _2, r_2, s_3, \alpha _3, r_3, ... , s_T, \alpha _T, r_T}\}$
$R(\tau)=\sum_{n=1}^{T}r_n$
某一种 $\tau$ 出现的概率与 $a c t o r$ (模型)有关，即该 $\tau$ 过程出现的概率为 $P(\tau| \theta)$

由上面的分析可知，某一个 $a c t o r$ 一轮回合下来得到的 $r e w a r d$ 的期望值：
$\bar{R}_{\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)$

但是我们无法遍历所有的 $\tau$ ，故只能采取抽样的方式，我们让这个 $a c t o r$ 玩 $N$ 场游戏，获得 $N$ 个不同的游戏过程，即 $\{\tau^1, \tau^2, ...., \tau^N\}$ ，可以理解为从 $p(\tau|\theta)$ 中 $s a m p l e$ 了 $N$ 次。即：
$\bar{R}_{\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)\approx \frac{1}{N}\sum_{n=1}^{N}R(\tau^n)$

那么现在已经找到了 $\bar{R}_{\theta}$ ，我们希望找到了一个 $\theta^*$ ，能 $\underset{\theta}{max} \bar{R}_{\theta}$ ，也就是 $\theta^*=arg\underset{\theta}{max}\bar{R}_{\theta}$ ，我们可以利用 $Gradient\ ascent$ 来不断逼近：

$start\ with\ \theta^0$
$\theta^1\leftarrow \theta^0+\eta \triangledown \bar{R}_{\theta^0}$
$\theta^2\leftarrow \theta^1+\eta \triangledown \bar{R}_{\theta^1}$
…

那么 $\triangledown \bar{R}_{\theta}$ 怎么求呢？

这里写图片描述

可以实际的推导一下 $\triangledown \bar{R}_{\theta}$ ：

这里写图片描述

其中：

这里写图片描述

则：

这里写图片描述

可以直观的理解上面 $\triangledown \bar{R}_{\theta}$ 结果：

当 $R(\tau^n)$ )(***注意这里是一个回合的 $r e w a r d$ ***) 为正的时候，我们希望调整 $\theta$ ，增大 $p(\alpha_t^n|s_t^n)$ ，使其在时间 $t$ 更大可能选择 $\alpha_t^n$
当 $R(\tau^n)$ 为正的时候，我们希望调整 $\theta$ ，减小 $p(\alpha_t^n|s_t^n)$ ，使其在时间 $t$ 更小可能选择 $\alpha_t^n$

上面的求 $\triangledown \bar{R}_{\theta}$ 过程就是 $policy\ Gradient$ 。

Critic

给定一个 $actor\ \pi$ ，用 $C r i t i c$ 来衡量 $a c t o r$ 好或者不好，记做 $V^{\pi}(s)$ ，这里 $s$ 就是当前的环境状态。 $V^{\pi}(s)$ 就是当观察到 $s$ 后，到一轮游戏结束，我们所能得到的 $r e w a r d$ 的期望值有多大。以此来更新 $a c t o r$ (即其中的参数)

这里写图片描述

那么如何得到 $V^{\pi}(s)$ 呢？

Monte-Carlo

让 $c r i t i c$ 观察 $\pi$ 玩游戏，举例来说：

当看到环境 $s_a$ 后，直到一轮回合结束，所积累的 $r e w a r d$ 为 $G_a$ ，那么 $V^{pi}(s_a) = G_a$
当看到环境 $s_b$ 后，直到一轮回合结束，所积累的 $r e w a r d$ 为 $G_b$ ，那么 $V^{pi}(s_b) = G_b$

Temporal-Difference

这里写图片描述

MC VS TD

这里写图片描述

不同的方法，其 $V^{\pi}(s)$ 值不一样，选哪个方法视具体情况而言。

Actor-Critic

这里写图片描述

我们在上面讲到了 $a c t o r$ 与环境互动时，会得到一个 $r e w a r d$ 的反馈，如上面在求 $\triangledown \bar{R}_{\theta}$ 时：

这里写图片描述

如上图所示，可以直接把 $R(/tau^n)$ 看做 $c r i t i c$

Advantage Actor-Critic

对于 $actor\ \pi(s)$ 和 $critic\ V^{\pi}_(s)$ 可以共享一些参数，如下图所示：

这里写图片描述

村头陶员外

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习--＞Deep Reinforcement Learning

因为逐渐有人将强化学习应用到NLPNLP 的任务上，有必要了解一些强化学习基础知识，本篇博文总结自台大教授李宏毅关于深度学习的公开课内容。我们可以以上图来理解强化学习过程，我们机器人agentagent 通过observationobservation 了解到环境的 StateState，采取一些ActionAction ，并且改变当前的环境，然后环境会反馈正向或负向的rewardreward 给a
复制链接

扫一扫

专栏目录