通过变分反向强化学习进行对抗模仿（EAIRL）

最新推荐文章于 2024-06-12 18:20:10 发布

界限不存在的

最新推荐文章于 2024-06-12 18:20:10 发布

阅读量985

点赞数

文章标签：反向强化学习强化学习深度学习

本文链接：https://blog.csdn.net/qq_38907879/article/details/102902249

版权

本文介绍了ICLR2019上的一项研究，该研究基于AIRL和GAIL，提出了一种新的反向强化学习方法——EAIRL。通过引入互信息（MI），EAIRL旨在避免过拟合专家行为，鼓励agent采取更通用的动作。算法包括奖励函数的构建、MI的计算和策略梯度上升，以实现更优的模仿学习效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Overview

前段时间看了反向强化学习领域的最新论文，为了防止自己忘记，特此在此记录一下。本次学习的论文选自ICLR2019。本文主要是以之前的AIRL为基础，从GAIL处得出辨别器潜在的奖励函数，并通过增加一项名为互信息(mutual information)的项，来使得agent会更倾向于选择一般的行为，而不会过拟合在专家行为上面。
原文地址

Background

什么是mutual information

在概率论和信息论中，两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。【wiki】
因此，在连续随机变量的情形下，我们会表现为如下形式：
$I(X;Y)=\int_Y\int_Xp(x,y)\frac{p(x,y)}{p(x)p(y)}dxdy$

也可以表现为如下形式：
$I (X; Y) = H (X) - H (X ∣ Y)$

Adversarial inverse reinforcement learning

AIRL是基于之前的GAIL提出的一种反向强化学习的方法，在最初的GAIL当中，我们把agent的(s,a)分布拟合到专家的(s,a)分布上去，在这个过程当中，我们并没有真正写出一个奖励函数来，因此GAIL是一个模仿学习，而不是反向强化学习，但是AIRL将辨别器的函数写成了如下的奖励函数的形式。
首先我们写出我们的辨别器函数：
$f_{\xi,\varphi}(s,a,s^,)=r_\xi(s)+\gamma h_\varphi(s^,)-h_\varphi(s)$
$D_{\xi,\varphi}(s,a,s^,)=\frac{exp(f_{\xi,\varphi}(s,a,s^,))}{exp(f_{\xi,\varphi}(s,a,s^,)+\pi(a|s))}$

最低0.47元/天解锁文章