TensorFlow代码实现:https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks
原创文章,转载请标明出处:http://blog.csdn.net/ikerpeng/article/details/53784021
知乎同步发布:https://zhuanlan.zhihu.com/p/24478944
交流请加群:580043385
今天这个歪楼以下,插播今年NIPS的最佳论文,也是强化学习的一篇论文,叫做 Value iteration Network.
这一篇强化学习的论文是为了解决 强化学习当中泛化能力差的问题,为了解决这个问题,引入了一个 Learn to plan 的模块。
本文的最大创新:在一般性的策略(Policy representation)表示当中加入了一个 规划模块(Planing module)。作者认为加入这个模块的motivation是很自然的,因为决解一个空间的问题的时候都不是单纯的解决这个问题,而是要在这个空间当中去计划。