深度强化学习系列(三)Value iteration Network

本文介绍Value Iteration Network(VIN),这是一种解决强化学习中泛化能力差问题的方法,通过引入Learn to plan模块。VIN在策略表示中加入规划模块,将奖励函数和转移函数参数化并可求导,利用注意力机制增强策略的泛化能力。文章详细阐述了VIN的创新点、工作原理及其实现,并通过Grid walking实验展示了其优于传统算法的性能。
摘要由CSDN通过智能技术生成

TensorFlow代码实现:https://github.com/TheAbhiKumar/tensorflow-value-iteration-networks

原创文章,转载请标明出处:http://blog.csdn.net/ikerpeng/article/details/53784021
知乎同步发布:https://zhuanlan.zhihu.com/p/24478944

交流请加群:580043385


今天这个歪楼以下,插播今年NIPS的最佳论文,也是强化学习的一篇论文,叫做 Value iteration Network.

这一篇强化学习的论文是为了解决 强化学习当中泛化能力差的问题,为了解决这个问题,引入了一个 Learn to plan 的模块。

本文的最大创新:在一般性的策略(Policy representation)表示当中加入了一个 规划模块(Planing module)。作者认为加入这个模块的motivation是很自然的,因为决解一个空间的问题的时候都不是单纯的解决这个问题,而是要在这个空间当中去计划。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值