《self imitation learning》快速阅读

最新推荐文章于 2024-03-15 20:04:01 发布

hehedadaq

最新推荐文章于 2024-03-15 20:04:01 发布

阅读量654

点赞数 2

分类专栏：论文阅读笔记 DRL RL 文章标签： RL 强化学习 imitation 模仿学习探索利用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hehedadaq/article/details/121526688

版权

DRL 同时被 3 个专栏收录

33 篇文章 16 订阅

订阅专栏

论文阅读笔记

22 篇文章 4 订阅

订阅专栏

12 篇文章 1 订阅

订阅专栏

《self imitation learning》快速阅读

文章目录

《self imitation learning》快速阅读

前言：

最近对自模仿学习特别感兴趣，因此调研了一堆相关的论文，最经典的一篇自然是《self imitation learning》，称为SIL。

刚开始我搜的模仿学习，然后发现行为克隆 behavior cloning，即BC是是最简单的一种模仿学习，然后发现，他们用的都是提前提供好的专家数据，而不是智能体自己探索到的好数据。这个很明显不优雅。

看了四篇关于imitation相关的文章，在related work中我发现了 self imitation这个关键词，才知道，原来这才是我一直想要的东西。

我需要的是智能体能够，更好的利用它过去的优秀经验。而不是简单的优先经验回放，因为PER很多情况下并不好用。

接下来简单聊聊SIL。

SIL的核心概念：

在这里插入图片描述
从伪代码中一眼看出，它相比于传统的on policy的算法来说，多了一个off-policy的buffer，更新的时候也多了一个L_sil的loss，这个loss如下：

上面三个公式也非常直观，那个+号，意味着

def max_func(x):
	if x > 0:
		return x
	else:
		return 0

带入内容，即如果当前累计回报R大于网络拟合的V，那么就有更新梯度的必要，如果V值本身就很大了，就别更新了。

利用这个特征来进一步的优化网络参数，对于那些优秀的经验，他们的R很大，但是简单的利用A2C的更新，不足以完全的利用好这些信息。

这个也是我想要的一个效果。

至于实验的性能，由于他们做了很多对比实验，在不是sota的baseline的对比中，感觉看起来还不错，引用数也挺高，有用过的同学可以交流一下~

联系方式：

ps: 欢迎做强化的同学加群一起学习：

深度强化学习-DRL：799378128

Mujoco建模：818977608

欢迎玩其他物理引擎的同学一起玩耍~

欢迎关注知乎帐号：未入门的炼丹学徒

CSDN帐号：https://blog.csdn.net/hehedadaq

极简spinup+HER+PER代码实现：https://github.com/kaixindelele/DRLib

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
《self imitation learning》快速阅读

《self imitation learning》快速阅读文章目录《self imitation learning》快速阅读前言：SIL的核心概念：联系方式：前言：最近对自模仿学习特别感兴趣，因此调研了一堆相关的论文，最经典的一篇自然是《self imitation learning》，称为SIL。刚开始我搜的模仿学习，然后发现行为克隆 behavior cloning，即BC是是最简单的一种模仿学习，然后发现，他们用的都是提前提供好的专家数据，而不是智能体自己探索到的好数据。这个很明显不优雅。看
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hehedadaq 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。