Data-Efficient Hierarchical Reinforcement Learning

最新推荐文章于 2024-06-14 15:48:44 发布

HoJ Ray

最新推荐文章于 2024-06-14 15:48:44 发布

阅读量1.5k

点赞数 4

分类专栏： DRL文章阅读笔记文章标签：强化学习

本文链接：https://blog.csdn.net/qq_19005887/article/details/106433299

版权

DRL文章阅读笔记专栏收录该内容

10 篇文章 4 订阅

订阅专栏

Data-Efficient Hierarchical Reinforcement Learning

文章来自Google Brain，提出了一种将 off-policy 算法应用在 HRL 框架上的方法 — HIRO (HIerarchical Reinforcement learning with Off-policy correction)。由于 off-policy 的引入，使得数据可以重复利用，所以叫 “data-efficient”。

Contribution:
1）成功地将 off-policy 应用在 HRL 的 high-level policy 中。
2）提出了一种 off-policy correction 方法，用于解决 off-policy 在HRL中出现的不稳定问题。
3）由于 off-policy 的引入，提高了 HRL 的数据利用率。

Code: https://github.com/tensorflow/models/tree/master/research/efficient-hrl

直接来看文章的框架：

由于是 HRL，所以有两个策略，一个是 high-level policy $\mu^{hi}$ ，另一个是 low-level policy $\mu^{lo}$ 。

Env 给出一个初始状态 $s_{_0}$ ，传递到 $\mu^{hi}$ 和 $\mu^{lo}$ ；
然后 $\mu^{hi}$ 执行动作，即生成一个任务目标 $g_{_0}$ 并传达给 $\mu^{lo}$ ；
$\mu^{lo}$ 将 $s_{_0}$ 和 $g_{_0}$ 作为输入，并输出动作 $a_{_0}$ ，直接作用于Env ；
这时候 Env 给出奖励 $R_{_0}$ ，然后跳到下一个状态 $s_{_1}$ ，并将其传递给任务目标转移函数 $h$ 和 $\mu^{lo}$ ；
然后用 $h$ 代替 $\mu^{hi}$ ，将 $g_{_0}$ 和 $s_{_1}$ 作为输入，生成下一个任务目标 $g_{_1}$ 并传达给 $\mu^{lo}$ ；
$\mu^{lo}$ 将 $s_{_1}$ 和 $g_{_1}$ 作为输入，并输出动作 $a_{_1}$ ，直接作用于Env ；
重复 c 次以上动作；
因此，每隔 c 个 step， $\mu^{hi}$ 才执行一次动作。

关于 low-level policy $\mu^{lo}$ 的训练：

对于 $\mu^{lo}$ ，文章用了DDPG算法，其经验元组为 $s_{_t}, g_{_t}, a_{_t}, r_{_t}, s_{_{t+1}}, g_{_{t+1}})$ 。

DDPG原本要减小的贝尔曼error公式为：

由于 $\mu^{lo}$ 还要接收来自 $\mu^{hi}$ 输出的 $g$ ，则该公式修改为：

再谈一下在 c steps 之中，生成任务目标 $g$ 的目标转移函数 $h$ 以及奖励函数 $r$ ：

这两个函数的设计，使得 $\mu^{lo}$ 的优化目标变为，在任意一个 c steps 内，使机器人的行为匹配 $\mu^{hi}$ 输出的目标 $g$ 。怎么做到的呢？

首先， $\mu^{lo}$ 要最大化上面的奖励函数，即想要使 $s_{_t} + g_{_t}$ 与 $s_{_{t+1}}$ 之间的差异越来越小。

而 $s_{_t}$ 和 $g_{_t}$ 是 $\mu^{lo}$ 在 $t$ 时刻已经观察到的观察值，是无法更改的。所以， $\mu^{lo}$ 只能通过执行动作 $a$ ，去影响 $s_{_{t+1}}$ 的值，并使其尽量与 $s_{_t} + g_{_t}$ 接近。实际上，由于目标转移函数 $h$ 的设计， $s_{_t} + g_{_t}$ 是一个定值，其大小等于 $s_{_0} + g_{_0}$ 。

也就是说 $\mu^{lo}$ 在努力地迫使 Env 出现的下一个状态 $s_{_{t+1}} = s_{_0} + g_{_0}$ 。

举个简单的例子，一开始 Env 给出了初始状态（1-D） $s_{_0} =10$ ，高级策略 $\mu^{hi}$ 收到后，给出目标 $g_{_0} = 5$ ，言外之意就是希望经过 c 个 step 后（假设为6），Env 的输出 $s_{_{c-1}} =15$ 。

$\mu^{lo}$ 收到 $s_{_0},g_{_0}) = (10,5)$ ，执行 $a_{_0}$ ，得到 $s_{_{1}} =\ \ 8$ ，根据 $h$ ，有 $g_{_1} = s_{_0} + g_{_0} - s_{_1} = 7$
$\mu^{lo}$ 收到 $s_{_1},g_{_1}) = (\ \ 8,7)$ ，执行 $a_{_1}$ ，得到 $s_{_{2}} =\ \ 9$ ，根据 $h$ ，有 $g_{_2} = s_{_1} + g_{_1} - s_{_2} = 6$
$\mu^{lo}$ 收到 $s_{_2},g_{_2}) = (\ \ 9,6)$ ，执行 $a_{_2}$ ，得到 $s_{_{3}} =\ \ 7$ ，根据 $h$ ，有 $g_{_3} = s_{_2} + g_{_2} - s_{_3} = 8$
$\mu^{lo}$ 收到 $s_{_3},g_{_3}) = (\ \ 7,8)$ ，执行 $a_{_3}$ ，得到 $s_{_{4}} =11$ ，根据 $h$ ，有 $g_{_4} = s_{_3} + g_{_3} - s_{_4} = 4$
$\mu^{lo}$ 收到 $s_{_4},g_{_4}) = (11,4)$ ，执行 $a_{_4}$ ，得到 $s_{_{5}} =10$ ，根据 $h$ ，有 $g_{_5} = s_{_4} + g_{_4} - s_{_5} = 5$
$\mu^{lo}$ 收到 $s_{_5},g_{_5}) = (10,5)$ ，执行 $a_{_5}$ ，得到 $s_{_{6}} =14$ ，根据 $h$ ，有 $g_{_6} = s_{_6} + g_{_5} - s_{_6} = 1$

可以观察到：

得益于 $h$ 目标转移函数， $s_{_t} + g_{_t} = s_{_0} + g_{_0}=15$ 是固定的。
序列 $s_{_0},s_{_1},s_{_2},s_{_3},s_{_4},s_{_5},s_{_6} = 10,8,9,7,11,10,14$ 虽然上上下下，但一定是不断逼近15的。否则只能说明优化算法 $\mu^{lo}$ 有误，无法最大化奖励。

关于 high-level policy $\mu^{hi}$ 的训练：

若 $\mu^{lo}$ 已能够很好地完成 $\mu^{hi}$ 给的任务目标，那么 $\mu^{hi}$ 又是怎么下达目标 $g$ 的呢？

划重点，文章的贡献点主要就在这里了。在之前HRL的框架中，high-level policy 只能用 on-policy，若使用 off-policy 则会引起该策略的不稳定。

这个不稳定问题是由 off-policy 对历史经验数据的重复使用造成的，先来看 $\mu^{hi}$ 的经验元组， $(s_{_t},g_{_t},\sum R_{_{t:t+c-1}},s_{_{t+c}})$ ，这里的奖励是 c steps 内所有的奖励之和。

在确定性环境中，如果一个 Agent 在某个状态 $s_{_t}$ 下，采取动作 $a_{_t}$ ，得到奖励 $r_{_{t}}$ ，下一个状态变为 $s_{_{t+1}}$ 。那么无论什么时候，只要在那个状态 $s_{_t}$ 下， Agent 采取同样的动作 $a_{_t}$ ，得到奖励依旧是 $r_{_{t}}$ ，下一个状态依旧是变为 $s_{_{t+1}}$ ，这是固定的。
在随机性环境中，如果一个 Agent 在某个状态 $s_{_t}$ 下，采取动作 $a_{_t}$ ，得到奖励 $r_{_{t}}$ ，下一个状态变为 $s_{_{t+1}}$ 。那么下次在同样的那个状态 $s_{_t}$ 下， Agent 采取同样的动作 $a_{_t}$ ，得到的奖励以及下一个状态可能会不同，即以一定的概率跳到 $r'_{_{t}}$ 和 $s'_{_{t+1}}$ ，尽管会跳动，但是它的跳动概率是固定的。所以尽管随机性环境更难学习，但是环境状态转移还是有规律性的。

站在 $\mu^{hi}$ 的角度，在状态 $s_{_t}$ 下，采取动作 $g_{_t}$ ，得到的奖励是 $\sum R_{_{t:t+c-1}}$ ，下一个状态是 $s_{_{t+c}}$ 。这里的下一个状态 $s_{_{t+c}}$ 是经过 $\mu^{lo}$ 与环境互动 c steps 后得到的，所以它与 $\mu^{lo}$ 输出的动作 $a$ 有关。所以，对于 $\mu^{hi}$ 来说， $\mu^{lo}$ 也算是环境的一部分，因为它会影响 $\mu^{hi}$ 的下一个状态是 $s_{_{t+c}}$ 。

然而， $\mu^{lo}$ 是不断在更新的，所以，在同样的状态 $s_{_t}$ 下， $\mu^{hi}$ 采取同样的动作 $g_{_t}$ ，得到的奖励 $\sum R_{_{t:t+c-1}}$ 以及下一个状态 $s_{_{t+c}}$ 是不断在变化的，而且是没有规律的，完全是随机的 (注，就算是随机性环境，至少还会根据一定的概率进行状态转移)。

这时候， $\mu^{hi}$ 就会一脸懵逼，根据之前观察到的经验元组 $(s_{_t},g_{_t},\sum R_{_{t:t+c-1}},s_{_{t+c}})$ 根本就学不到任何东西。因为经验元组可以变成这样 $(s_{_t},g_{_t},\sum R'_{_{t:t+c-1}},s'_{_{t+c}})$ 或者这样 $(s_{_t},g_{_t},\sum R''_{_{t:t+c-1}},s''_{_{t+c}})$ 又或者是这样 $(s_{_t},g_{_t},\sum R'''_{_{t:t+c-1}},s'''_{_{t+c}})$ ，总之，就是没有规律的元组，同一个状态下执行同一个动作，下一步什么情况都可能会发生。

off-policy correction 闪亮登场：
既然 $\mu^{hi}$ 在 $s_{_t}$ 下采取动作 $g_{_t}$ ，由于 $\mu^{lo}$ 的不断更新，下一个状态不再转移为 $s_{_{t+c}}$ ，变得无规律性。

那么如果这个时候 $\mu^{hi}$ 采取是另一个动作 $\tilde{g}_{_t}$ ，这个 $\tilde{g}_{_t}$ 使得当前最新的 $\mu^{lo}$ 策略采取和之前未更新时相同的动作 $a$ ，那么在 c steps 中，low-level policy $\mu^{lo}$ 与 Env 的互动关系保持不变，如此一来， $s_{_{t+c}}$ 也就不会改变了。

举个例子，这里依旧使用上一小节 “关于 low-level policy $\mu^{lo}$ 的训练” 中的数据：
比如在 low-level policy 更新之前：
$\mu^{lo}_{old}$ 收到 $s_{_0},g_{_0}) = (10,5)$ ，执行 $a_{_0}$ ，得到 $s_{_{1}} =\ \ 8$ ，根据 $h$ ，有 $g_{_1} = s_{_0} + g_{_0} - s_{_1} = 7$
当 low-level policy 更新之后，可能就变成了：
$\mu^{lo}_{new}$ 收到 $s_{_0},g_{_0}) = (10,5)$ ，执行 $a'_{_0}$ ，得到 $s'_{_{1}} =11$ ，根据 $h$ ，有 $g'_{_1} = s_{_0} + g_{_0} - s'_{_1} = 4$

这么搞下去，之前的状态序列 $s_{_0},s_{_1},...,s_{_6}$ 和动作序列 $a_{_0},a_{_1},...,a_{_6}$ 就全变了。因此 $s_{_{c}} = s_{_{6}}$ 就不等于原来的14了。

文章的做法是，采用off-policy correction：
更改 low-level policy 的任务目标 $g$ ，使得更新后的策略 $\mu^{lo}_{new}$ 能够在新的观察 $(s_{_0}, \tilde {g}_{_0}) = (10, \tilde {g}_{_0})$ 中，尽可能地采取与更新前同样的动作序列 $a_{_0},a_{_1},...,a_{_6}$ ，然后，用与原来近似的动作序列与 Env 互动，得到的状态序列 $s_{_0},s_{_1},...,s_{_6}$ 也基本不变。因此达到了不改变 $s_{_{c}}$ 的目的。

当 low-level policy 更新之后，可能就变成了：
$\mu^{lo}_{new}$ 收到 $(s_{_0}, \tilde {g}_{_0}) = (10, \tilde {g}_{_0})$ ，执行 $a_{_0}$ ，得到 $s_{_{1}} =\ \ 8$ ，根据 $h$ ，有 $g'_{_1} = s_{_0} + \tilde {g}_{_0} - s_{_1}$

可见，这里用的任务目标转移函数 $h$ 计算方式不变。

那么，怎么去寻找这个 $\tilde {g}_{_0}$ ?

以 $s_{_{t+c}} - s_{_{t}}$ 为高斯采样中心，采取8个样本，然后加上这个采样中心 $s_{_{t+c}} - s_{_{t}}$ ，以及原来 $\mu^{lo}$ 未更新时的 $g_{_t}$ ，一共10个参考值。

文章选择的 $\tilde {g}_{_0}$ 要使得 $\mu^{lo}_{new}(a_{_{t:t+c-1}} | s_{_{t:t+c-1}}, \tilde{g}_{_{t:t+c-1}})$ 发生的概率最大，所以，将这10个参考值代入下式进行计算：

取获得上式值最大的那个参考值作为 $\tilde {g}_{_0}$ 。

HoJ Ray

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
5
评论
Data-Efficient Hierarchical Reinforcement Learning

文章来自Google Brain，提出了一种将 off-policy 算法应用在 HRL 框架上的方法 --- HIRO (HIerarchical Reinforcement learning with Off-policy correction)。由于 off-policy 的引入，使得数据可以重复利用，所以叫 "data-efficient"。
复制链接

扫一扫