- 博客(1)
- 资源 (6)
- 收藏
- 关注
原创 深度强化学习系列(三)Value iteration Network
今天这个歪楼以下,插播今年NIPS的最佳论文,也是强化学习的一篇论文,叫做 Value iteration Network.这一篇强化学习的论文是为了解决 强化学习当中泛化能力差的问题,为了解决这个问题,引入了一个 Learn to plan 的模块。本文的最大创新:在一般性的策略(Policy representation)表示当中加入了一个 规划模块(Planing module)。作者认为加
2016-12-21 19:14:49 9237 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人