NIPS2018深度学习(16)|亮点: 深度强化学习;正交投影胶囊子空间(论文及代码)

[1] Unsupervised Video Object Segmentation for Deep Reinforcement Learning

Vik Goel, Jameson Weng, Pascal Poupart

University of Waterloo

https://papers.nips.cc/paper/7811-unsupervised-video-object-segmentation-for-deep-reinforcement-learning.pdf

这篇文章给出一种新的技术,该方法可以使得深度强化学习自动监测移动的物体,还可以利用相关信息来选择动作。对运动物体的监测是通过无监督方式实现了,其中利用了运动的结构信息。

该方法并不是直接从原始图像中学习策略,智能体首先利用视频序列中的流信息来学习如何检测和分割移动的物体。所学到的表示可以使得智能体的策略集中在移动的物体上。随着时间的推移,智能体能够识别出对于决策起关键作用的物体,然后给予相关移动物体来逐渐构建策略。

作者们将这种方法称作面向运动的强化学习(MOREL),它可以监测运动的物体,进而降低了与环境交互的次数,而且可以得到好的策略。该方法相对另一种方法得到的策略解释性更强,另一种方法即利用黑箱神经网络直接就爱你个图像映射到行动或者映射到价值。

无监督物体分割模型的结构示例如下

640?wx_fmt=png

</

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值