HRL
这梦想不休不止
这个作者很懒,什么都没留下…
展开
-
FeUdal Networks for Hierarchical Reinforcement Learning
这篇文章和hdqn,我个人感觉差别还是很明显的。最明显的是我没有感受到时间维度的差异,也就是什么提供goal的时间维度小,施行者时间维度大,这一个特点。我花了三天吧(前两天感觉没有集中精神),把文章代码都读了几遍。除了文章中的dilated lstm,我不大明白是怎么实现的外(文章中说和cw lstm的idea一样,还列出了dilated convelution的paper,所以我感觉...原创 2018-11-27 21:19:07 · 1857 阅读 · 1 评论 -
A Deep Hierarchical Approach to Lifelong Learning in Minecraft
把之前读的一篇HRL的文章也补上。这个文章的代码,我看了两天,表示看的不大明白,只能找到一个lua脚本写出来的版本,感觉读起来很吃力网络模型:先介绍一下文章的总体思想:主要由两部分组成,一个控制器,一个以往获得的经验。这里提到了一个蒸馏法,也就是有一个T net 有一个 S net , S net可以不断地学习T net,不断拟合。控制器主要是决定采用一个单独的...原创 2018-11-28 00:07:57 · 544 阅读 · 0 评论