通过变分反向强化学习进行对抗模仿(EAIRL)

Overview

前段时间看了反向强化学习领域的最新论文,为了防止自己忘记,特此在此记录一下。本次学习的论文选自ICLR2019。本文主要是以之前的AIRL为基础,从GAIL处得出辨别器潜在的奖励函数,并通过增加一项名为互信息(mutual information)的项,来使得agent会更倾向于选择一般的行为,而不会过拟合在专家行为上面。
原文地址

Background

什么是mutual information

在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。【wiki】
因此,在连续随机变量的情形下,我们会表现为如下形式:
I ( X ; Y ) = ∫ Y ∫ X p ( x , y ) p ( x , y ) p ( x ) p ( y ) d x d y I(X;Y)=\int_Y\int_Xp(x,y)\frac{p(x,y)}{p(x)p(y)}dxdy I(X;Y)=YXp(x,y)p(x)p(y)p(x,y)dxdy

也可以表现为如下形式:
I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y)=H(X)-H(X|Y) I(X;Y)=H(X)H(XY)

Adversarial inverse reinforcement learning

AIRL是基于之前的GAIL提出的一种反向强化学习的方法,在最初的GAIL当中,我们把agent的(s,a)分布拟合到专家的(s,a)分布上去,在这个过程当中,我们并没有真正写出一个奖励函数来,因此GAIL是一个模仿学习,而不是反向强化学习,但是AIRL将辨别器的函数写成了如下的奖励函数的形式。
首先我们写出我们的辨别器函数:
f ξ , φ ( s , a , s , ) = r ξ ( s ) + γ h φ ( s , ) − h φ ( s ) f_{\xi,\varphi}(s,a,s^,)=r_\xi(s)+\gamma h_\varphi(s^,)-h_\varphi(s) fξ,φ(s,a,s,)=rξ(s)+γhφ(s,)hφ(s)
D ξ , φ ( s , a , s , ) = e x p ( f ξ , φ ( s , a , s , ) ) e x p ( f ξ , φ ( s , a , s , ) + π ( a ∣ s ) ) D_{\xi,\varphi}(s,a,s^,)=\frac{exp(f_{\xi,\varphi}(s,a,s^,))}{exp(f_{\xi,\varphi}(s,a,s^,)+\pi(a|s))} Dξ,φ(s,a,s,)=exp(fξ,φ(s,a,s,)+π(as))exp(fξ

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值