2021-05-19 关于RL探索的一些论文

最近小伙伴在研究RL当中的encoder refinement,我就看了一眼exploration。有时候一个着不好用,可能得两个着或者三个着,不行还得马大师出面一下。

先说我们的基础是DreamerV1DreamerV2。这两篇文章细节相当复杂,但是相当有意思。我建议对Model Based RL感兴趣的同学仔细阅读一下。此外,在这个过程中,目前揪出来的encoding refinement相关的还有Normalizing Flow。大家也可以看看。

关于Exploration,大概最主要的例子都是蒙特祖玛的复仇。传统做法是把visit新的状态当作是一个reward,所以即使agent啥也没学到,一直去学习也好。这方面文章挺多。最近看来,这个趋势不是很多了。下面分享几篇文章吧。

Geometry Entropic Exploration基本上是借用了Contrastive Learning的思想,使得相似的pair尽可能一样,而不一样的pair尽可能不一样。整体来说,作者提出的GEM Entropy跟最大化直接的Entropy是等价的(?)。至于效果,各位看官只能自己尝试了。

EULER是一篇相当复杂的文章。这篇文章是非常典型的(也是很少见的)通过数学推导推动算法的文章。整体讲的仍然是exploration,感兴趣小伙伴可以看看。

Reward Free Exploration这篇文章大概就是说,虽然你们
reward设计的各种花里胡哨的,但是实际上,在真正的应用当中,你们还是得靠case-by-case的设计,所以我想提出来一个和reward没有关系的exploration方法。 整体来说,分为Explore + Plan (运用Approximate MDP Solver)和Policy Gradient。方法基于EULER为基础。感兴趣小伙伴可以看看。

大体今天看了这些。我估计Explore还要继续看。我没想到的是这些算法非常偏数学。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值