强化学习遭遇瓶颈！分层RL将成为突破的希望

最新推荐文章于 2024-08-10 12:57:20 发布

weixin_33827965

最新推荐文章于 2024-08-10 12:57:20 发布

阅读量3.2k

点赞数 4

文章标签：人工智能 php

本文链接：https://blog.csdn.net/weixin_33827965/article/details/89118851

版权

本文探讨了强化学习（RL）的局限性，如样本效率低、扩展性问题和泛化能力不足，并提出分层强化学习（HRL）作为解决方案。HRL通过学习不同时间抽象层次的控制，提高学习效率，实现结构化探索和迁移学习。文章介绍了HRL的基本框架，如封建等级式学习、选项框架、MAXQ等，并列举了近年来在HRL领域的研究成果，如FeUdal网络、Option-Critic、HIRO等。HRL的未来挑战包括高阶状态迁移函数的管理、自动学习层次结构和更有效的探索。尽管存在挑战，但HRL有望推动RL在复杂任务中的应用和进步。

摘要由CSDN通过智能技术生成

本文作者是法国里尔大学Inria SequeL团队的博士生，Yannis Flet-Berliac，他在本文中对分层强化学习（HRL）的研究进行了总结，文章首先回顾了强化学习（RL）的基本原理，并阐述了其目前所面对的局限性。随后介绍了HRL如何解决RL的局限，包括其动机、主要框架和自身的局限性。最后，讨论了这一领域当前和未来的研究。

假设你的朋友刚烤好一个蛋糕，端来给你尝尝，很好吃，于是你想知道它的配方。让你的朋友告诉你如何烤好一个蛋糕似乎是件很容易的事情，他应该能把做法讲清楚。但这是一个比你想象的更加微妙的任务，他应该讲到多详细？他需要把每一个微小的动作都详细地解释给你吗？

应该是不需要的。

举个例子来说，勃艮第牛排，需要把“4根胡萝卜切成薄片”。在我们给别人介绍做法时，没有必要说：“拿起刀子，万一它切不好，就把它磨平。拿一块木板，把4根胡萝卜放在上面。把刀握在你的手上，收缩肌肉来切第一片胡萝卜。”

因此，让一个系统完成某个动作时，需要考虑相关的粒度级别。这种粒度很难在数学上集成到复杂的自学习系统中。

$\"image\"$

菜谱的不同粒度级别

此外，在发育心理学中有越来越多的证据表明新生儿、灵长类动物、儿童和成人的基础知识依赖的是相同的认知系统。这些认知系统包括实体、代理、动作、空间、社会结构和直觉理论。在开放式游戏中，如把积木堆成稳定的结构，幼儿会使用这些知识来设置子目标。

为了实现这些目标，幼儿似乎在他们的基础知识的空间中产生了子目标，进行时间抽象。以勃艮第牛排的配方为例，洋葱的切割过程是一个时间延长的动作，并且可以根据所需的切割细度采用不同的步骤数来完成。这种时间抽象的概念，结合强化学习（Reinforcement Learning，RL），就转化为分层强化学习（Hierarchical Reinforcement Learning，HRL）。

在下面的文章中，我们对HRL研究进行了总结。我们首先回顾一下RL的基本原理，然后再阐述其目前的局限性。然后，我们将介绍HRL如何对抗RL的局限，包括其动机、主要框架和自身的局限性。最后，我们将讨论这一领域当前和未来的研究。

强化学习（RL）基本原理介绍

近来，强化学习（RL）方法在许多领域都取得了较好的研究结果，包括在围棋中击败人类的最佳棋手，从像素中学习玩雅达利游戏，以及在模拟或现实世界中教计算机控制机器人。这些成就是20世纪50年代以来试错学习和最优控制的研究的巅峰。从这两个领域中诞生了强化学习的领域，从那时起，它一直在发展，产生了令人难以置信的影响。

Csaba Szepesvári在他的书中写道：“强化学习既是学习问题，也是机器学习的子领域。”

简而言之，学习问题与软件代理有关，该软件在一个环境中通过试错来学习有目标导向的行为，而环境对代理的行为给出反馈，当代理的行为是朝着实现目标的方向时则给予奖励。
$\"image\"$

强化学习问题

学习问题的设置非常简单。

有两个主角：一个代理和一个环境。环境是代理“生活”的地方，是它与之互动的地方。在每一个互动点，代理会对当前状态进行观察，然后决定要采取的动作。当代理对环境进行更改时，环境也会发生变化，但也可以自行改变。代理会从环境收到奖励信号，可以是一个数字（或一个分布），告诉它这个动作对代理的目标产生了好的还是坏的作用。

你或许会疑问，为什么RL不是直接监督学习（从数据样本（状态，动作）得到奖励）？Alex Graves在NeurIPS 2018的无监督学习报告中提到了这一点：

有了监督学习设置，我们将需要大量的数据，这是很难获得的，而且定义起来也很复杂。
我们从孩子们发现世界的过程中所学到的是，不依赖大量数据的学习感觉更像人类。
RL可以在各种复杂的真实环境中更好地泛化，例如内在动机和辅助任务。

第三点对HRL来说更有意义，HRL的目标是高效，特别是在学习的泛化和迁移方面。

所以RL的主要问题是：我们如何最大化未来的回报？

回答这个问题实际上需要回答其他的子问题，包括：

我们应该学习什么（模型、状态工具、策略等）？
我们应该如何学习（TD学习，Monte Carlo等）？
我们如何表示我们所学的知识（深度神经网络，表格等等）？
如何使用我们所学的知识？（这通常是第一个要回答的问题）

强化学习的难点

在Warneken和Tomasello的著名实验中，一个18个月大的幼儿在没有提前看过该如何做的情况下，他可以理解正在发生的事情，以及如何与环境互动。幼儿必须有一些常识才能做到这一点：理解物理、动作、限制和计划。

我们想用现有的RL方法建立这样一个有能力的系统，仍然有很长的路要走。一个原因是因为RL存在各种各样的缺陷，这些缺陷阻碍了学习过程，也让它无法被应用到更复杂的环境中。HRL旨在通过分解学习的特定部分来减轻学习的复杂性。与分层强化学习的优势相比，强化学习的主要弱点可以被分解如下：

样本效率：数据生成常常是瓶颈，当前的RL方法的数据效率较低。使用HRL，子任务和抽象动作可以用于同一域上的不同任务（迁移学习）。
扩展：将传统的RL方法应用于具有大的动作或状态空间的问题是不可行的（维数灾难）。HRL的目标是将大问题分解成更小的问题（高效学习）。
泛化：训练有素的代理可以解决复杂的任务，但是如果我们希望他们将经验迁移到新的（甚至相似的）环境中，即使最先进的RL算法也会失败（由于过度专业化而导致脆性）。
抽象：状态和时间抽象可以简化问题，因为子任务可以通过RL方法（更好的知识表示）得到有效解决。

此外，所有强化学习的基本算法都是所谓的“平坦”方法。他们把状态空间视为一个巨大的、平坦的搜索空间，这意味着从起始状态到目标状态的路径非常长。如果我们用食谱的例子来解释，状态空间是动作序列，这些动作完全是由一系列肌肉微收缩组成的。此外，这些路径的长度决定了学习的成本，因为未来的奖励信息必须沿着这些路径反向传播。总之，奖励信号既微弱，又会延迟。

也许我们可以后退一步，看看我们在20世纪70年代的研究：在规划领域的研究表明，层次化的方法，例如分层任务网络、宏观动作和状态抽象方法，可以让找到正确规划的计算成本以指数降低，但是我们仍然缺乏完全有效的方法，将分层结构集成到目前有效的RL算法中。