GAIL 论文翻译

Generative Adversial Imitation learning

Abstract

考虑从示例专家行为中学习策略,而不进行交互或者与专家或访问增强学习的信号。 一种方法是恢复专家的成本函数与逆强化学习,然后从具有强化学习的成本函数提取policy。 这种方法是间接的并且可能很慢。 我们提出了一个新的通用框架来直接提取一个来自数据的policy,来逼近是通过反向强化学习获得的强化学习。我们表明,我们框架的某个实例在模仿学习和生成对抗网络之间进行了类比,从中我们推导出一种无模型的模仿学习算法,该算法在模拟大型复杂行为时,比现有的无模型方法在高维环境下获得显着的性能提升。

--------------------前几部分讲了传统IRL的方法,将其省略,重点是:

GAIL

正如第4节所讨论的那样,常数正则化器导致模拟学习算法与占用度量完全匹配,但在大型环境中难以处理。 另一方面,线性成本函数类(10)的指标正则化导致算法无法精确匹配占用度量而无需仔细调整,但在大型环境中易于处理。 我们提出以下新的成本正规化器,结合了两者的优点,我们将在接下来的部分中展示:

该正则化器对成本函数c进行低惩罚,为专家状态 - 动作对分配一定数量的负成本; 但是,如果c给专家分配大的成本(接近零,这是ψGA可行成本的上限),那么ψGA将严重惩罚c。 ψGA的一个有趣特性是它是专家数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值