关注公众号,发现CV技术之美
本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCLA视觉研究组提出用于视频预测的动态语义模型。
详细信息如下:
论文题目:Learning Semantic-Aware Dynamics for Video Prediction
论文链接:https://arxiv.org/abs/2104.09762
01
动机
对于很多自主感知应用而言,预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学,提出了一种语义导向的动态模型来实现视频预测。
本文作者认为,在视频数据中,由于物体自身的几何结构和运动模式不同,会产生不同的时序视觉变化,直接训练模型来预测整个画幅的变化,难度较大,所以本文假设,将视频场景分解成独立的个体,捕获每个个体的演变特点,然后再进行预测整合,可以提高整体预测的效果。
上图为对同一段视频帧序列的三种不同表示,视频帧、语义分割图和光流场,可以看出,视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂,所以作者提出将语义分割图(场景布局)和光流场(运动信息)分开处理,分别进行预测,并将它们的上下文信息进行整合,来进行未来帧的预测。
02
本文方法
本文的核心出发点是为了明确的进行动态语义建模,即动态模型的输入为视频帧的语义图和光流场