Generative Adversarial Imitation Learning 论文简析

《Generative Adversarial Imitation Learning》2016

1、几个概念:

(1) occupancy measure   ρπ(s,a):

  \rho _{}\pi \left ( s,a \right )=\pi \left ( a|s \right )\sum ^{\infty }_{t=0}\gamma ^{t}P(s_{t}=s|\pi)

(2)cost function   C(s,a),   π策略下的累计回报:

 

 (3)causal entropy:

 

(4) 学徒学习公式

(5)用RTPO来进行策略更新,保证每个策略更新后前后两个策略的差距不会太大。

This algorithm relies crucially on the TRPO policy step, which is a natural gradient step constrained to ensure that πθi+1 does not stray too far πθi。

2、算法

其中,判别器参数用adam更新,目的是increase  D,生成器用TRPO更新,目的是 decrease D

其中, cost function c(s,a) = logD(s,a)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值