2021-05-19 关于RL探索的一些论文

最新推荐文章于 2022-09-01 11:39:12 发布

「已注销」

最新推荐文章于 2022-09-01 11:39:12 发布

阅读量245

点赞数 1

分类专栏：人工智能

本文链接：https://blog.csdn.net/weixin_42812353/article/details/117018839

版权

人工智能专栏收录该内容

38 篇文章 2 订阅

订阅专栏

最近小伙伴在研究RL当中的encoder refinement，我就看了一眼exploration。有时候一个着不好用，可能得两个着或者三个着，不行还得马大师出面一下。

先说我们的基础是DreamerV1和DreamerV2。这两篇文章细节相当复杂，但是相当有意思。我建议对Model Based RL感兴趣的同学仔细阅读一下。此外，在这个过程中，目前揪出来的encoding refinement相关的还有Normalizing Flow。大家也可以看看。

关于Exploration，大概最主要的例子都是蒙特祖玛的复仇。传统做法是把visit新的状态当作是一个reward，所以即使agent啥也没学到，一直去学习也好。这方面文章挺多。最近看来，这个趋势不是很多了。下面分享几篇文章吧。

Geometry Entropic Exploration基本上是借用了Contrastive Learning的思想，使得相似的pair尽可能一样，而不一样的pair尽可能不一样。整体来说，作者提出的GEM Entropy跟最大化直接的Entropy是等价的（？）。至于效果，各位看官只能自己尝试了。

EULER是一篇相当复杂的文章。这篇文章是非常典型的（也是很少见的）通过数学推导推动算法的文章。整体讲的仍然是exploration，感兴趣小伙伴可以看看。

Reward Free Exploration这篇文章大概就是说，虽然你们
reward设计的各种花里胡哨的，但是实际上，在真正的应用当中，你们还是得靠case-by-case的设计，所以我想提出来一个和reward没有关系的exploration方法。整体来说，分为Explore + Plan (运用Approximate MDP Solver)和Policy Gradient。方法基于EULER为基础。感兴趣小伙伴可以看看。

大体今天看了这些。我估计Explore还要继续看。我没想到的是这些算法非常偏数学。

「已注销」

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-05-19 关于RL探索的一些论文

最近小伙伴在研究RL当中的encoder refinement，我就看了一眼exploration。有时候一个着不好用，可能得两个着或者三个着，不行还得马大师出面一下。先说我们的基础是DreamerV1和DreamerV2。这两篇文章细节相当复杂，但是相当有意思。我建议对Model Based RL感兴趣的同学仔细阅读一下。此外，在这个过程中，目前揪出来的encoding refinement相关的还有Normalizing Flow。大家也可以看看。关于Exploration，大概最主要的例子都是蒙特
复制链接

扫一扫

专栏目录