An Optimistic Perspective on Offline Reinforcement Learning

如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
原文链接:https://arxiv.org/pdf/1907.04543.pdf
参考链接:https://tech.sina.com.cn/roll/2020-04-15/doc-iirczymi6435971.shtml
下面这篇文章比我写的好多了,可以直接移步^^
https://blog.csdn.net/hehedadaq/article/details/107549419

根据 DQN 智能体记录下的经验,谷歌大脑团队的研究者提出了一种在 Atari 2600 游戏中进行离线强化学习的简单实验设置。他们展示了不通过对任何错配分布的显式修正,仍然可能训练出性能超越使用标准异策略 RL 算法收集数据的智能体。同时,研究者还提出了一种鲁棒的 RL 算法,在离线 RL 中表现出可观的结果,称作随机混合集成(random ensemble mixture,REM)。研究者提出一种全新的优化角度,即鲁棒的 RL 算法在足够大且多样化的离线数据集中训练可产生高质量的行为,巩固了新兴的数据驱动 RL 范式。

在在线 RL 中,一个智能体选择它认为会带来高奖励(high reward)的动作,然后会接收纠错性反馈(corrective feedback)。此外,由于在离线 RL 中无法收集额外数据(additional data),所以有必要使用一个固定的数据集来推理出泛化能力。借助于使用模型集成来提升泛化能力的监督学习方法,研究者提出了以下两个新的离线 RL 智能体:

集成 DQN 是 DQN 的一个简单扩展,它训练多个 Q 值估计并取平均值来进行评估;

随机集成混合(Random Ensemble Mixture,REM)是一个易于实现的 DQN 扩展,它受到了 Dropout 的启发。REM 的核心理念是,如果可以得到 Q 值的多个估计,则 Q 值估计的加权组合(weighted combination)也成为 Q 值的一个估计。因此,REM 在每次迭代中随机组合多个 Q 值估计,并将这种随机组合用于鲁棒训练。

摘要

在现实世界的应用中,使用记录交互的固定离线数据集的异策略强化学习是一个重要的考虑因素。本文使用DQN重放数据集来研究离线RL,该数据集包括DQN代理在60场雅达利2600游戏上的全部重放经验。我们证明了最近的异策略深度强化算法,即使只在这个固定数据集上训练,也优于完全训练的DQN代理。为了提高离线环境下的泛化能力,我们提出了随机集成混合算法REM,这是一种鲁棒的Q学习算法,在多个Q值估计的随机凸组合上实现最佳贝尔曼一致性。在DQN重放数据集上训练的离线REM超过了基线。消融研究突出了离线数据集大小和多样性的作用,以及算法选择在我们积极结果中的作用。总的来说,这里的结果给出了一个乐观的观点,即在足够大和多样的离线数据集上使用的RL算法可以导致高质量的策略。为了给离线RL提供一个测试平台并重现我们的结果,DQN重放数据集在offline-rl.github.io发布。

1 introduction

深度学习成功的主要原因之一是可以使用大量多样的数据集(如ImageNet)来训练表达性的深度神经网络。相比之下,大多数强化学习算法(Sutton,2018)假设代理与在线环境或模拟器交互,并从自己收集的经验中学习。这限制了在线学习对复杂现实世界问题的适用性,在现实世界中,主动数据收集意味着从每次尝试中收集大量不同的数据。这些数据代价可能很高,不安全,或者需要通常难以构建的高保真模拟器。

离线RL学习关注的是从固定的轨迹数据集中学习策略的问题,而不需要与环境进行任何进一步的交互。这种设置可以利用大量现有的记录交互来解决现实世界中的决策问题,如机器人,自动驾驶,推荐系统和healthcare。这种数据集的有效使用不仅将使现实世界的RL更加实用,而且还将通过结合不同的先前经验来实现更好的推广。

在离线RL学习中,代理不会从在线环境中收到任何新的纠正性反馈,需要在评估过程中从固定的交互数据集泛化到新的在线交互。原则上,异策略算法可以从任何策略收集的数据中学习,但是,最近的工作提出了一个令人沮丧的观点,即标准的离线深度RL算法在离线设置下会出现分歧或产生较差的性能。**这些论文提出了补救措施,通过调整学习的政策,以保持接近离线轨迹的训练数据集。**此外,张和Sutton断言,大的重放缓冲区甚至会由于其“异策略性”而损害异策略算法的性能。

相比之下,本文对离线学习策略提出了乐观的观点,即在有足够大和多样的数据集的情况下,鲁棒的学习算法可以产生高质量的策略,而无需对分布不匹配进行显式校正。本文的贡献可以概括为:

  • 基于DQN代理的记录重放数据,提出了一种离线RL设置,用于评估雅达利2600游戏上的算法,每个游戏包括5000万(观察、动作、奖励、下一次观察)元组。这种设置大大降低了实验的计算成本,并有助于通过使用固定数据集标准化训练来提高再现性。DQN重播数据集和我们的代码已发布,以实现离线优化在一个共同基础上的RL算法。

  • 与最近的工作相反,我们表明最近仅在离线数据上训练异策略RL算法是成功的。例如,在DQN重放数据集上训练的离线QR-DQN优于DQN重放数据集中的最佳策略。这种差异归因于离线数据集大小和多样性的差异以及RL算法的选择。

  • 提出了一种称为随机集成混合的鲁棒Q学习算法,该算法对多个Q值估计的随机凸组合执行最优贝尔曼一致性。离线REM在离线环境下表现出很强的泛化性能,优于离线QR-DQN。与在线C51相比,强RL基线说明了利用记录的DQN数据进行REM的相对收益规模。

2 Off-policy Reinforcement Learning

强化学习中的交互环境通常被描述为马尔可夫决策过程(MDP) (S,A,R,P,γ),具有状态空间S,动作空间A,随机奖励函数R(s,A),转移动力学P(s‘|s,A)和折扣因子γ ∈ [0,1]。随机策略π(`| s)将每个状态s ∈ S映射到动作上的分布(密度)。

对于遵循策略π的代理,动作价值函数,表示为Qπ(s,a),被定义为累积折扣未来回报的期望,即
在这里插入图片描述
RL的目标是找到一个最优策略π*,该策略实现最大期望收益,其中所有的π,s,a满足Qπ*(s,a) ≥ Qπ(s,a)。贝尔曼最优性方程根据最优Q值来表征最优策略,表示为Q*= Qπ*,通过:
在这里插入图片描述
为了从与环境的相互作用中学习一项策略,Qlearning通过反复将(2)的LHS(左侧)回归到由(2)的RHS(右侧)样本定义的目标值,迭代地改进了Q*的近似估计,表示为Qθ。对于大型和复杂的状态空间,使用神经网络作为函数逼近器来获得近似的Q值。为了进一步稳定优化,可以使用具有冻结参数的目标网络Qθ’来计算学习目标。在固定数量的时间步长之后,目标网络参数θ‘被更新为当前Q网络参数θ。

DQN使用卷积神经网络参数化Qθ,并使用带目标网络的Qlearning,同时遵循关于Qθ的贪婪策略进行数据收集。DQN最小化TD误差Δθ,使用在训练期间收集的代理的过去经验元组(s,a,r,s’)的小批量上的损失L(θ),从经验重放缓冲器D采样:
在这里插入图片描述
其中lλ是Huber损失,由下式给出
在这里插入图片描述
Q-learning是一种异策略算法,因为学习目标可以在不考虑经验是如何产生的情况下进行计算。

最近的一系列异策略的深度RL算法,在本文中用作基线,包括分布式RL方法。这种算法估计每个状态-动作对的回报密度,表示为Zπ(s,a),而不是直接估计平均Qπ(s

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值