文章目录
Introduction
强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了代理应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在强化学习中引入了有效的高容量函数逼近器(deep neural networks),以及有效的训练算法,使得强化学习方法在强化学习中取得了很好的效果广泛的领域。
然而,强化学习算法提供了一个基本的在线学习范式,这也是其广泛采用的最大障碍之一。强化学习的过程包括通过与环境交互反复收集经验,通常是使用最新学习的策略,然后使用这些经验来改进策略。在许多情况下,这种在线交互是不切实际的,原因可能是数据收集昂贵(例如,在机器人、教育代理或医疗保健中)和危险(例如,在自动驾驶或医疗保健中)。此外,即使在在线交互可行的领域中,我们可能仍然倾向于使用以前收集的数据,例如,如果该领域很复杂,并且有效的泛化需要大量的数据集。
事实上,在过去十年里,机器学习方法在一系列实际相关问题上的成功,在很大程度上可以归因于可扩展数据驱动学习方法的出现,这种方法随着使用更多数据的训练而变得越来越好。在线强化学习很难与这种范式相一致。当强化学习方法使用低维或线性参数化,因此依赖于小数据集来解决易于收集或模拟的小问题时,这一问题可以说是一个较小的问题(Lange等人,2012年),但一旦将深层网络纳入强化学习中,就很容易考虑是否同样的数据驱动学习可以应用到强化学习目标中,从而导致数据驱动的强化学习只利用先前收集的离线数据,而不需要任何额外的在线交互(Kumar,2019;Fu等人,2020)。如图1所示。
最近的一些研究表明,这种方法在对话、机器人操作行为和机器人导航技能方面实现数据驱动学习的策略的强大作用。
不幸的是,这种数据驱动的离线强化学习也带来了很大的算法挑战。正如我们将在本文中讨论的,许多常用的强化学习方法可以从off-policy数据中学习,但是这些方法没有额外的on-policy的交互时,通常无法有效地从整个离线数据中学习。高维和表达性强的函数逼近通常会加剧这一问题,因为函数逼近使算