Generative Adversial Imitation learning
Abstract
考虑从示例专家行为中学习策略,而不进行交互或者与专家或访问增强学习的信号。 一种方法是恢复专家的成本函数与逆强化学习,然后从具有强化学习的成本函数提取policy。 这种方法是间接的并且可能很慢。 我们提出了一个新的通用框架来直接提取一个来自数据的policy,来逼近是通过反向强化学习获得的强化学习。我们表明,我们框架的某个实例在模仿学习和生成对抗网络之间进行了类比,从中我们推导出一种无模型的模仿学习算法,该算法在模拟大型复杂行为时,比现有的无模型方法在高维环境下获得显着的性能提升。
--------------------前几部分讲了传统IRL的方法,将其省略,重点是:
GAIL
正如第4节所讨论的那样,常数正则化器导致模拟学习算法与占用度量完全匹配,但在大型环境中难以处理。 另一方面,线性成本函数类(10)的指标正则化导致算法无法精确匹配占用度量而无需仔细调整,但在大型环境中易于处理。 我们提出以下新的成本正规化器,结合了两者的优点,我们将在接下来的部分中展示:
该正则化器对成本函数c进行低惩罚,为专家状态 - 动作对分配一定数量的负成本; 但是,如果c给专家分配大的成本(接近零,这是ψGA可行成本的上限),那么ψGA将严重惩罚c。 ψGA的一个有趣特性是它是专家数