Generative Adversarial Imitation Learning 论文简析

最新推荐文章于 2022-12-03 21:42:15 发布

Demian_Neit

最新推荐文章于 2022-12-03 21:42:15 发布

阅读量1.2k

点赞数 1

分类专栏：论文简析文章标签： Imitation learning GAN reinforcement learning GAIL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hjw756517/article/details/88117996

版权

论文简析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

《Generative Adversarial Imitation Learning》2016

1、几个概念：

（1） occupancy measure ρπ(s,a)：

$\rho _{}\pi \left ( s,a \right )=\pi \left ( a|s \right )\sum ^{\infty }_{t=0}\gamma ^{t}P(s_{t}=s|\pi)$

（2）cost function C(s,a), π策略下的累计回报：

（3）causal entropy:

(4) 学徒学习公式

（5）用RTPO来进行策略更新，保证每个策略更新后前后两个策略的差距不会太大。

This algorithm relies crucially on the TRPO policy step, which is a natural gradient step constrained to ensure that πθi+1 does not stray too far πθi。

2、算法

其中，判别器参数用adam更新，目的是increase D，生成器用TRPO更新，目的是 decrease D

其中， cost function c(s,a) = logD(s,a)

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Generative Adversarial Imitation Learning 论文简析

《Generative Adversarial Imitation Learning》20161、几个概念：（1） occupancy measure ρπ(s,a)：（2）cost function C(s,a), π策略下的累计回报：（3）causal entropy:(4) 学徒学习公式（5）用RTPO来进行策略更新，保证每个...
复制链接

扫一扫

专栏目录

Demian_Neit CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

27万+: 周排名

58万+: 总排名

4万+: 访问

: 等级

616: 积分

7: 粉丝

30: 获赞

14: 评论

145: 收藏

私信

关注

热门文章

分类专栏

最新评论

梳理确定性策略梯度，随机策略梯度，AC，DPG，DDPG之间的联系
eowyn0406: 看原论文好像两者都是确定的，这几个公式出现在off-policy deterministic actor-critic 那一节公式（16-18），off-policy 只是指当前更新的theta参数不是正在使用的策略的参数。
梳理确定性策略梯度，随机策略梯度，AC，DPG，DDPG之间的联系
姜义建: 我也觉得这个地方是不是写反了
在ROS中兼容Python3和Python2
-ATAO----: 记得要在python node的文件头部加上shebang，否则rosrun仍会调用python2：请问 python node的文件头部在哪里？
梳理确定性策略梯度，随机策略梯度，AC，DPG，DDPG之间的联系
cx_Cindy: 请问DPG里Actor采用随机策略，Critic采用确定性策略怎么理解？actor输出动作运用的不是确定性策略梯度吗？
在ROS中兼容Python3和Python2
Tech沉思录回复 Tech沉思录: 貌似在conda环境中运行程序然后这个时候的Python3会指向当前环境中的Python

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。