Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems 笔记

这篇博客探讨了离线强化学习(Offline RL)的重要性,特别是在数据收集昂贵或危险的场景中。它强调了离线RL面临的挑战,如分布转移,并介绍了动态规划方法在解决这些问题上的潜力。虽然离线RL算法提供了从静态数据集中学习的强大能力,但它们也面临着算法上的困难,需要限制策略变化以避免分布偏移。博客总结了离线RL的现状和未来挑战,暗示了它对强化学习领域的巨大潜力。
摘要由CSDN通过智能技术生成

Introduction

强化学习为基于学习的控制提供了一种数学形式。通过强化学习,我们可以自动获得以策略为代表的接近最优的行为技能,以优化用户指定的奖励函数。奖励函数定义了代理应该做什么,而强化学习算法决定了如何做。几十年来,强化学习算法一直是一个活跃的研究领域,在强化学习中引入了有效的高容量函数逼近器(deep neural networks),以及有效的训练算法,使得强化学习方法在强化学习中取得了很好的效果广泛的领域。

然而,强化学习算法提供了一个基本的在线学习范式,这也是其广泛采用的最大障碍之一。强化学习的过程包括通过与环境交互反复收集经验,通常是使用最新学习的策略,然后使用这些经验来改进策略。在许多情况下,这种在线交互是不切实际的,原因可能是数据收集昂贵(例如,在机器人、教育代理或医疗保健中)和危险(例如,在自动驾驶或医疗保健中)。此外,即使在在线交互可行的领域中,我们可能仍然倾向于使用以前收集的数据,例如,如果该领域很复杂,并且有效的泛化需要大量的数据集。

事实上,在过去十年里,机器学习方法在一系列实际相关问题上的成功,在很大程度上可以归因于可扩展数据驱动学习方法的出现,这种方法随着使用更多数据的训练而变得越来越好。在线强化学习很难与这种范式相一致。当强化学习方法使用低维或线性参数化,因此依赖于小数据集来解决易于收集或模拟的小问题时,这一问题可以说是一个较小的问题(Lange等人,2012年),但一旦将深层网络纳入强化学习中,就很容易考虑是否同样的数据驱动学习可以应用到强化学习目标中,从而导致数据驱动的强化学习只利用先前收集的离线数据,而不需要任何额外的在线交互(Kumar,2019;Fu等人,2020)。如图1所示。

最近的一些研究表明,这种方法在对话、机器人操作行为和机器人导航技能方面实现数据驱动学习的策略的强大作用。

不幸的是,这种数据驱动的离线强化学习也带来了很大的算法挑战。正如我们将在本文中讨论的,许多常用的强化学习方法可以从off-policy数据中学习,但是这些方法没有额外的on-policy的交互时,通常无法有效地从整个离线数据中学习。高维和表达性强的函数逼近通常会加剧这一问题,因为函数逼近使算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值