论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

论文题目:When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning

论文概述

本文主要介绍了一种离线逆强化学习的最大似然框架,该框架结合了演示数据和生成式世界模型。文中详细介绍了算法的实现细节,并提供了理论分析和实验结果。

摘要

离线逆向强化学习( Offline IRL )旨在从专家智能体中恢复固定的、有限的一组演示中所观察到的动作背后的奖励和环境动态的结构。执行任务的专业知识的精确模型在安全敏感的应用中具有应用,例如临床决策和自动驾驶。然而,隐含在观察到的动作中的专家偏好的结构与专家的环境动力学模型(即"世界"模式)紧密相关。因此,从有限覆盖范围的有限数据中获得的世界的不准确模型可能会复合估计奖励的不准确性。为了解决这个问题,我们提出了估计任务的双层优化模型,其中上层是基于专家策略的保守模型(下层)的似然最大化。该策略模型是保守的,因为它在受到惩罚的情况下最大化奖励,而这种惩罚在世界估计模型的不确定性中不断增加。我们提出了一个新的算法框架来解决双层优化问题的表述,并为相关的最优报酬估计量提供了性能的统计和计算保证。最后,在Mu Jo Co中的连续控制任务和D4RL Benchmark2中的不同数据集上,我们证明了所提算法的性能优于当前最先进的离线IRL和模仿学习基准。

算法设计

  1. 问题公式化:该问题采用双层优化形式,下层问题是在给定的奖励函数下,求解最优策略;上层问题是最大化观察到的专家轨迹的对数似然,以便找到最佳奖励函数。
  2. 构建世界模型:从收集的转换样本中估计世界模型P,并利用不确定性估计技术量化模型不确定性。这样可以在保守马尔可夫决策过程(保守MDP)中为具有高模型不确定性和低数据覆盖的状态-动作对应高惩罚值,从而避免在不熟悉的区域进行冒险探索。
  3. 设计IRL算法:旨在恢复奖励函数,其对应的最优策略在构建的保守MDP中最大化观察到的专家轨迹的对数似然。
  4. 算法分为两个阶段: 第一阶段:估计动态模型(世界模型); 第二阶段:恢复奖励函数。
  5. 避免在每次奖励估计下重复求解策略优化问题,因此提出了一种交替在奖励更新步骤和保守策略改进步骤之间切换的算法。
  6. 在非线性奖励函数参数化下,提供了理论分析,表明该算法会在有限时间内收敛到近似稳定点。

  7. 当奖励线性参数化且专家访问的状态-动作空间具有足够的覆盖以构建估计世界模型时,进一步证明了所提出的算法可以近似地找到MLE公式的最优奖励估计器。

实验设计

预处理:在模型为基础的算法(如Offline ML-IRL和CLARE)中,估计的动态模型使用转换数据集进行训练。在估计动态模型后,相应的算法(Offline ML-IRL和CLARE)将进一步利用专家示范数据集DE中的专家轨迹来恢复真实的奖励函数和模仿专家行为。

Offline ML-IRL的实现:在Offline ML-IRL的实现中,奖励网络使用(256, 256)的MLP参数化,其中输入为状态-动作对(s, a),输出为估计的奖励值r(s, a;θ)。此外,使用Adam作为优化器,以更新奖励网络的步长设置为1×10-4。

策略优化子例程:在策略优化子例程()-()中,我们将其视为一个基于熵正则化框架的模型为基础的离线RL子任务。SAC-based算法被用作相应的RL求解器。

对比基准算法:提出的方法与现有的基线方法进行比较。这些基线方法包括:一种基于模型的方法CLARE;一种不基于模型的方法IQ-Learn;以及两种模仿学习算法BC和ValueDICE。

实验结果:实验结果显示,提出的Offline ML-IRL算法在大多数情况下明显优于其他现有的离线IRL和模仿学习基线方法。

额外的数值结果:实验结果表明,即使仅提供1000个专家示范,Offline ML-IRL也可以实现接近专家水平的强性能。

实验设置

  1. 数据集:实验使用两种类型的数据集:(1)转换数据集D = {(s, a, s')},包含多样化的转换样本,从D4RL V2下载;(2)专家演示数据集DE = {τE},包含几个专家轨迹,专家轨迹由专家级策略收集。
  2. 模型构建:根据收集的转换样本构建世界模型P。通过利用不确定性估计技术量化模型不确定性,从而在高不确定性和低数据覆盖的状态-动作对上施加高惩罚值,以避免在未熟悉的区域进行冒险性探索。
  3. 算法设计:提出一个两阶段过程。在第一阶段,估计动态模型(世界模型);在第二阶段,提出一个IRL算法恢复奖励函数。该算法交替进行一个奖励更新步骤和一个保守策略改进步骤。
  4. 实验评估:通过多个实验集合评估提出的算法,包括不同类型的数据集(medium-replay,medium,medium-expert)和三个环境(halfcheetah,hopper,walker2d)。实验结果表明,所提出的离线ML-IRL在大多数情况下明显优于现有的离线IRL和模仿学习基准。
  5. 参数设置:在实现中,将奖励网络参数化为一个(256, 256)MLP,激活函数为ReLU。优化器使用Adam,更新奖励网络的步长为1×10^(-4)。在策略优化子例程中,使用SAC-based算法作为相应的RL求解器。
  • 11
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值