CVPR 2021 前景背景分开建模,UCLA 视觉研究组提出用于视频预测的动态语义模型...

本文介绍CVPR 2021的一篇论文,提出了一种语义感知动态模型用于视频预测,通过前景背景分开建模,结合语义分割和光流场信息,提高预测准确性。实验表明,该模型在Cityscapes和KITTI数据集上表现出色。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』,前景背景分开建模,UCLA视觉研究组提出用于视频预测的动态语义模型。

详细信息如下:

c41d36addf0ab42c2de302f88a486f4b.png

  • 论文题目:Learning Semantic-Aware Dynamics for Video Prediction

  • 论文链接:https://arxiv.org/abs/2104.09762

      01      

动机

对于很多自主感知应用而言,预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学,提出了一种语义导向的动态模型来实现视频预测。

本文作者认为,在视频数据中,由于物体自身的几何结构和运动模式不同,会产生不同的时序视觉变化,直接训练模型来预测整个画幅的变化,难度较大,所以本文假设,将视频场景分解成独立的个体,捕获每个个体的演变特点,然后再进行预测整合,可以提高整体预测的效果。

9bc7dd561407ec3deccea3c7bee98b72.png

上图为对同一段视频帧序列的三种不同表示,视频帧、语义分割图和光流场,可以看出,视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂,所以作者提出将语义分割图(场景布局)和光流场(运动信息)分开处理,分别进行预测,并将它们的上下文信息进行整合,来进行未来帧的预测。

      02      

本文方法

本文的核心出发点是为了明确的进行动态语义建模,即动态模型的输入为视频帧的语义图和光流场

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值