[1] Unsupervised Video Object Segmentation for Deep Reinforcement Learning
Vik Goel, Jameson Weng, Pascal Poupart
University of Waterloo
https://papers.nips.cc/paper/7811-unsupervised-video-object-segmentation-for-deep-reinforcement-learning.pdf
这篇文章给出一种新的技术,该方法可以使得深度强化学习自动监测移动的物体,还可以利用相关信息来选择动作。对运动物体的监测是通过无监督方式实现了,其中利用了运动的结构信息。
该方法并不是直接从原始图像中学习策略,智能体首先利用视频序列中的流信息来学习如何检测和分割移动的物体。所学到的表示可以使得智能体的策略集中在移动的物体上。随着时间的推移,智能体能够识别出对于决策起关键作用的物体,然后给予相关移动物体来逐渐构建策略。
作者们将这种方法称作面向运动的强化学习(MOREL),它可以监测运动的物体,进而降低了与环境交互的次数,而且可以得到好的策略。该方法相对另一种方法得到的策略解释性更强,另一种方法即利用黑箱神经网络直接就爱你个图像映射到行动或者映射到价值。
无监督物体分割模型的结构示例如下
</