强化学习遭遇瓶颈!分层RL将成为突破的希望

本文作者是法国里尔大学Inria SequeL团队的博士生,Yannis Flet-Berliac,他在本文中对分层强化学习(HRL)的研究进行了总结,文章首先回顾了强化学习(RL)的基本原理,并阐述了其目前所面对的局限性。随后介绍了HRL如何解决RL的局限,包括其动机、主要框架和自身的局限性。最后,讨论了这一领域当前和未来的研究。

假设你的朋友刚烤好一个蛋糕,端来给你尝尝,很好吃,于是你想知道它的配方。让你的朋友告诉你如何烤好一个蛋糕似乎是件很容易的事情,他应该能把做法讲清楚。但这是一个比你想象的更加微妙的任务,他应该讲到多详细?他需要把每一个微小的动作都详细地解释给你吗?

应该是不需要的。

举个例子来说,勃艮第牛排,需要把“4根胡萝卜切成薄片”。在我们给别人介绍做法时,没有必要说:“拿起刀子,万一它切不好,就把它磨平。拿一块木板,把4根胡萝卜放在上面。把刀握在你的手上,收缩肌肉来切第一片胡萝卜。”

因此,让一个系统完成某个动作时,需要考虑相关的粒度级别。这种粒度很难在数学上集成到复杂的自学习系统中。

\"image\"

菜谱的不同粒度级别

此外,在发育心理学中有越来越多的证据表明新生儿、灵长类动物、儿童和成人的基础知识依赖的是相同的认知系统。这些认知系统包括实体、代理、动作、空间、社会结构和直觉理论。在开放式游戏中,如把积木堆成稳定的结构,幼儿会使用这些知识来设置子目标。

为了实现这些目标,幼儿似乎在他们的基础知识的空间中产生了子目标,进行时间抽象。以勃艮第牛排的配方为例,洋葱的切割过程是一个时间延长的动作,并且可以根据所需的切割细度采用不同的步骤数来完成。这种时间抽象的概念,结合强化学习(Reinforcement Learning,RL),就转化为分层强化学习(Hierarchical Reinforcement Learning,HRL)。

在下面的文章中,我们对HRL研究进行了总结。我们首先回顾一下RL的基本原理,然后再阐述其目前的局限性。然后,我们将介绍HRL如何对抗RL的局限,包括其动机、主要框架和自身的局限性。最后,我们将讨论这一领域当前和未来的研究。

强化学习(RL)基本原理介绍

近来,强化学习(RL)方法在许多领域都取得了较好的研究结果,包括在围棋中击败人类的最佳棋手,从像素中学习玩雅达利游戏,以及在模拟现实世界中教计算机控制机器人。这些成就是20世纪50年代以来试错学习和最优控制的研究的巅峰。从这两个领域中诞生了强化学习的领域,从那时起,它一直在发展,产生了令人难以置信的影响。

Csaba Szepesvári在他的书中写道:“强化学习既是学习问题,也是机器学习的子领域。”

简而言之,学习问题与软件代理有关,该软件在一个环境中通过试错来学习有目标导向的行为,而环境对代理的行为给出反馈,当代理的行为是朝着实现目标的方向时则给予奖励。
\"image\"

强化学习问题

学习问题的设置非常简单。

有两个主角:一个代理和一个环境。环境是代理“生活”的地方,是它与之互动的地方。在每一个互动点,代理会对当前状态进行观察,然后决定要采取的动作。当代理对环境进行更改时,环境也会发生变化,但也可以自行改变。代理会从环境收到奖励信号,可以是一个数字(或一个分布),告诉它这个动作对代理的目标产生了好的还是坏的作用。

你或许会疑问,为什么RL不是直接监督学习(从数据样本(状态,动作)得到奖励)?Alex Graves在NeurIPS 2018的无监督学习报告中提到了这一点:

  1. 有了监督学习设置,我们将需要大量的数据,这是很难获得的,而且定义起来也很复杂。

  2. 我们从孩子们发现世界的过程中所学到的是,不依赖大量数据的学习感觉更像人类。

  3. RL可以在各种复杂的真实环境中更好地泛化,例如内在动机和辅助任务。

第三点对HRL来说更有意义,HRL的目标是高效,特别是在学习的泛化和迁移方面。

所以RL的主要问题是:我们如何最大化未来的回报?

回答这个问题实际上需要回答其他的子问题,包括:

  • 我们应该学习什么(模型、状态工具、策略等)?

  • 我们应该如何学习(TD学习,Monte Carlo等)?

  • 我们如何表示我们所学的知识(深度神经网络,表格等等)?

  • 如何使用我们所学的知识?(这通常是第一个要回答的问题)

强化学习的难点

在Warneken和Tomasello的著名实验中,一个18个月大的幼儿在没有提前看过该如何做的情况下,他可以理解正在发生的事情,以及如何与环境互动。幼儿必须有一些常识才能做到这一点:理解物理、动作、限制和计划。

我们想用现有的RL方法建立这样一个有能力的系统,仍然有很长的路要走。一个原因是因为RL存在各种各样的缺陷,这些缺陷阻碍了学习过程,也让它无法被应用到更复杂的环境中。HRL旨在通过分解学习的特定部分来减轻学习的复杂性。与分层强化学习的优势相比,强化学习的主要弱点可以被分解如下:

  • 样本效率:数据生成常常是瓶颈,当前的RL方法的数据效率较低。使用HRL,子任务和抽象动作可以用于同一域上的不同任务(迁移学习)。

  • 扩展:将传统的RL方法应用于具有大的动作或状态空间的问题是不可行的(维数灾难)。HRL的目标是将大问题分解成更小的问题(高效学习)。

  • 泛化:训练有素的代理可以解决复杂的任务,但是如果我们希望他们将经验迁移到新的(甚至相似的)环境中,即使最先进的RL算法也会失败(由于过度专业化而导致脆性)。

  • 抽象:状态和时间抽象可以简化问题,因为子任务可以通过RL方法(更好的知识表示)得到有效解决。

此外,所有强化学习的基本算法都是所谓的“平坦”方法。他们把状态空间视为一个巨大的、平坦的搜索空间,这意味着从起始状态到目标状态的路径非常长。如果我们用食谱的例子来解释,状态空间是动作序列,这些动作完全是由一系列肌肉微收缩组成的。此外,这些路径的长度决定了学习的成本,因为未来的奖励信息必须沿着这些路径反向传播。总之,奖励信号既微弱,又会延迟。

也许我们可以后退一步,看看我们在20世纪70年代的研究:在规划领域的研究表明,层次化的方法,例如分层任务网络、宏观动作和状态抽象方法,可以让找到正确规划的计算成本以指数降低,但是我们仍然缺乏完全有效的方法,将分层结构集成到目前有效的RL算法中。

分层强化学习

正如我们刚才看到的,强化学习问题存在严重的扩展问题。而分层强化学习(HRL)通过学习在不同程度的时间抽象上进行操作,可以解决这些

  • 4
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值