Reward
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
Surprise-based intrinsic motivation for deep reinforcement learning
最近读论文一直没怎么写博客,以前读论文注重结论,现在转向了过程。这篇论文,是看了一篇18年openai的论文里面的reference。17年的,比较新。这篇论文主要涉及了一个内在R,用于在sparse state下更好的去和环境交互。文中所有的P都是转移。首先给出了优化函数:也就是想最大化转移函数,f是正则函数。L是在文章中定义为根据policy在有结束的情况下的e...原创 2018-11-13 23:32:06 · 411 阅读 · 0 评论 -
exploration by random network distillation
看了半天这篇文章给的源码,大概思路能理解,但是要完全读明白OpenAI的代码,感觉有点难,没什么注释,还缺少文件。这篇文章读下来是基于18年Deepmind提出的一种不确定性度量法。随后OpenAI,就是用这个这个思想在这个内部奖励/好奇心/内在动机的思路中。并且取得了相对可观的效果。首先讨论了以下以前提出的基于table的counts based方法以及non-table的pse...原创 2018-11-14 19:13:20 · 1364 阅读 · 0 评论