Generative Adversarial Imitation Learning分析

本文探讨了在没有交互或强化信号的情况下,通过专家演示学习策略的问题。提出了Generative Adversarial Imitation Learning(GAIL)框架,该框架避免了逆强化学习的复杂性和计算成本,直接从数据中学习策略。GAIL使用生成对抗网络,通过对抗训练来匹配专家行为的分布,从而在大型高维环境中展现出显著的性能优势,优于传统无模型模仿学习方法。
摘要由CSDN通过智能技术生成

目录

Generative Adversarial Imitation Learning论文分析

Abstract

 Introduction

Background

Characterizing the induced optimal policy

 Practical occupancy measure matching

 Generative adversarial imitation learning


Generative Adversarial Imitation Learning论文分析

Abstract

考虑从示例专家行为中学习策略,而不与专家交互或访问强化信号。一种方法是利用逆向强化学习恢复专家的代价函数,然后利用强化学习从代价函数中提取策略。这种方法是间接的,可能很慢。我们提出了一个新的通用框架,可以直接从数据中提取策略,类似于通过反向强化学习获得的一样。展示了框架的一个实例,在模仿学习和生成式对抗网络之间进行了类比,从中导出了一种无模型模仿学习算法,该算法在模拟大型高维环境中的复杂行为时,比现有的无模型方法获得了显著的性能增益。

 Introduction

作者感兴趣的特定设置的模仿学习的问题,学习执行任务从专家演示中,学习者只给出样本轨迹的专家,不允许查询更多的数据,同时培训专家,并没有提供任何形式的强化信号。有两种主要的方法适用于这种设置:行为克隆[18],它从专家轨迹中学习策略作为一种监督学习问题;反强化学习[23,16],它找到一个专家唯一最优的代价函数。行为克隆虽然非常简单,但由于协变量移位引起的复合误差,只有在大量数据的情况下才能成功[21,22]。另一方面,逆强化学习(IRL)学习的是一个将整个轨迹优先于其他轨迹的成本函数,这个适合单时间步决策的方法的问题,所以复合误差不是一个问题。因此,IRL已经成功地解决了很多问题,从预测出租车司机[29]的行为到规划四足机器人[20]的脚步。不幸的是,许多IRL算法运行起来非常昂贵,需要在内部循环中进行强化学习。因此,将IRL方法扩展到大型环境是最近许多工作的焦点[6,13]。然而,从根本上讲,IRL学习了一个成本函数,它解释了专家行为,但并不直接告诉学习者如何行动。鉴于学习者年代真正的目标往往是采取行动模仿专家,事实上,许多IRL算法是根据它们学习的成本的最优行动的质量来评估的。那么,为什么我们必须学习一个成本函数,如果这样做可能会导致大量的计算费用,但不能直接产生行动?

作者目标是构建一种算法,通过直接学习策略,明确地告诉如何行动。为了开发这样一种算法,从第3节开始,在第3节中,对通过最大因果熵IRL学习的代价函数运行强化学习给出的策略进行了刻画[29,30]。描述引入了一个直接从数据中学习策略的框架,跳过了任何中间IRL步骤。然后,在第4节和第5节用一种新的无模型模仿学习算法来实例化框架。表明,结果算法与生成对抗密切相关,生成对抗是一种来自深度学习技术,最近在建模自然图像的分布方面取得了成功:算法利用生成对抗网络训练来适应定义专家行为的状态和行动的分布。在第6节中测试了算法,在其中发现,在复杂的、基于高维物理的控制任务的训练策略上,它在不同数量的专家数据上远远优于竞争方法。

讨论:

本文要解决的是Imitation Learning和Inverse RL。利用GAN的对抗训练来生成给定的专家数据分布。为什么要用GAN,一般Imitation Learning传统的Behavioral Cloning的方法存在状态漂移的问题,一旦遇到没有在专家轨迹中出现的状态将会产生很大的误差以及累计误差;逆强化学习只学到的cost function只是解释了专家轨迹,但没有学习到策略,而利用GAIL可以直接显式的得到决策,更高效。GAIL的Generator的是智能体的Policy。GAIL的学习:第一步通过当前policy采样得到的数据与专家数据进行对抗训练来训练Discriminator;然后,利用Discriminator作为surrogate reward function来训练策略Policy,文章使用的TRPO。参考【论文笔记】GAIL与MAGAIL(1) - 知乎

注意GAIL没有interaction with the expert or access to a reinforcement signal,是利用了已有的现成的数据集,代码数据地址如下。实际上expert 是离线,并没有跟着你的环境和agent走。baselines/baselines/gail at master · openai/baselines · GitHubhttps://github.com/openai/baselines/tree/master/baselines/gail

这样的问题Behavior Cloning是无法处理很好,原因是协变量移位引起复合误差(在intro第二段说明)。BC实际上为监督学习(supervised learning),让 agent 选择的动作和给定的动作是一致。但此问题可以由dataset aggregation进行改善,某些情况效果不错。但在监督学习当中,我们需要 training data 和 test data 独立同分布,但若不同于是在TEST中很有可能无法获得好的效果。参考深度学习课程笔记(七):模仿学习(imitation learning) - 曹明 - 博客园

Background

预备知识:有限状态和动作空间S和A,但算法和实验将在高维连续环境中运行。\tiny \prod是在S中,在A给定状态下采取行动的所有平稳随机策略的集合。后续状态由动力学模型

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值