强化学习最前沿之Hierarchical reinforcement learning（一）

最新推荐文章于 2025-05-13 02:54:34 发布

zachary2wave

最新推荐文章于 2025-05-13 02:54:34 发布

阅读量1.3w

点赞数 19

分类专栏：强化学习-最前沿文章标签：分层强化学习强化学习

本文链接：https://blog.csdn.net/kysguqfxfr/article/details/102252131

版权

强化学习-最前沿专栏收录该内容

6 篇文章

订阅专栏

HIRO是一种高效的分层强化学习算法，通过构建两层框架，使上层策略学习宏观策略，下层策略执行具体任务。文章详细介绍了HIRO如何解决训练低层策略、定义高层策略动作和在少量数据下训练多个策略的难题，以及off-policy矫正方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习-最前沿系列

深度强化学习作为当前发展最快的方向，可以说是百家争鸣的时代。针对特定问题，针对特定环境的文章也层出不穷。对于这么多的文章和方向，如果能撇一隅，往往也能够带来较多的启发。
本系列文章，主要是针对当前较新的深度强化学习算法和Trick，浅析其思路和方法，可以帮助你找出新的思路。希望对大家有多帮助。
另外，我会将所有的文章及所做的一些简单项目，放在我的个人网页上。
此系列传送门
水平有限，可能有理解不到位的地方，希望大家主动沟通交流。
邮箱：zachary2wave@163.com

强化学习最前沿之Hierarchical reinforcement learning（一）

分层的思想在今年已经延伸到机器学习的各个领域中去，包括NLP 以及很多representataion learning。

近些年，分层强化学习被看作更加复杂环境下的强化学习算法，其主要思想非常简单，就是一个大的问题进行分解。比如说我们需要完成一个课题，首先要应付写立项报告，去申请，然后再写中期答辩，最后再结题报告。那么分层强化学习也是一样的一个过程，其主要思路是依靠一个上层的policy去将整个任务进行分解，然后利用下层的policy去逐步执行。

目前已经有多篇文章在这个方面进行了卓有成效的研究：

这里已经有总结比较好的博文

英文版

中文版题目名为强化学习遭遇瓶颈！分层RL将成为突破的希望。因为都标明是原创，我也不知道到底是谁翻译的，大家可以直接去搜索在这里就不给出地址了。

这里主要推荐三片文章：

2017年 ICML文章提出封建网络FeUdal networks FeUdal networks for hierarchical reinforcement learning

这篇文章也已经在CSDN上，有了解读传送门

2018年NIPS文章 HIRO Data-efﬁcient hierarchical reinforcement learning

2018 AAAI 的文章 Learning Representations in Model-Free Hierarchical Reinforcement Learning

这篇博文主要来分析一下 2018年的NIPS的文章，HIRO

分层强化学习

与前面的文章当中提出的结构是一样的，提出分层强化学习（HRL）利用多层策略，多层策略去训练和决策更高维度的行为和抽象决策，从而解决困难任务难以学习的问题。在多数文章中，任务被分成了2层，高层策略是去计划长时间的收益，而低层策略是为了直接与环境交互，达到高层策略所指定的目标。

分层强化学习也存在着3个重要的难点：

怎么训练低层策略来感应语义存在不同的行为。
怎么定义高层策略的动作
怎么训练多个策略，在不过度收集数据的情况下。

HIRO

HIRO从两个方面回答了这些问题：

general：构建一个两层框架，上级策略学习宏观策略，而下层策略只是做一个监督学习，学习上层所给出的目标。

efficient：将之前所有的HIRO从on-policy 转换为off-policy 。但是转化为off-policy的时候，存在一个问题就是，上层策略和下层策略都在发生变化，上层策略训练之后，对于相同的场景会产生与经验不一样目标，这样下层的动作也就发生变化。所以off-policy的问题在这里。

所以这个地方提出了off-policy correction 来解决上面的问题。

学习训练算法文章使用的是DDPG ，对于DDPG不熟悉的同学来说，可以去看看莫烦的视频。

off-policy corrections

为什么要有off-policy 矫正，off-policy存在一个问题，之前的经验拿到现在来进行训练，那么当时高层策略给出的目标，和现在高层策略给出的目标往往可能是不相同的。同样，对于相同的高层策略，假设其能给出同样的目标，过去的低层策略往往会做出和现在低层策略不一样的动作，这样就导致了环境给出的reward的变化，那么用这个reward去训练高层策略往往是不准的。但是reward是改变不了的。
也就是说，当从过去的下层策略和当前的下层策略使用相同的目标时会发生的动作所导致的状态转移（以及reward）是不一样的，所以必须修正数据使其能恰好反应当前状态。

所以能改变的就是高层的动作，如果我们选择一个高层的动作，能够使得经验池中的已经得到低层动作的概率最大，就可以了
$\log \mu^{l o}\left(a_{t: t+c-1} | s_{t: t+c-1}, \tilde{g}_{t: t+c-1}\right) \propto-\frac{1}{2} \sum_{i=t}^{t+c-1}\left\|a_{i}-\mu^{l o}\left(s_{i}, \tilde{g}_{i}\right)\right\|_{2}^{2}+\text { const. }$
所以我们计算所有低层动作的概率，最后选择出来最大的来满足当前的结果。