CVPR 2021 前景背景分开建模，UCLA 视觉研究组提出用于视频预测的动态语义模型...

最新推荐文章于 2023-06-18 23:59:26 发布

我爱计算机视觉

最新推荐文章于 2023-06-18 23:59:26 发布

阅读量575

点赞数

文章标签： python 机器学习人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/120793299

版权

本文介绍CVPR 2021的一篇论文，提出了一种语义感知动态模型用于视频预测，通过前景背景分开建模，结合语义分割和光流场信息，提高预测准确性。实验表明，该模型在Cityscapes和KITTI数据集上表现出色。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

本文分享 CVPR 2021 论文『Learning Semantic-Aware Dynamics for Video Prediction』，前景背景分开建模，UCLA视觉研究组提出用于视频预测的动态语义模型。

详细信息如下：

论文题目：Learning Semantic-Aware Dynamics for Video Prediction
论文链接：https://arxiv.org/abs/2104.09762

01

动机

对于很多自主感知应用而言，预测环境未来的变化是非常重要的基础功能。本文来自加州大学洛杉矶分校和斯坦福大学，提出了一种语义导向的动态模型来实现视频预测。

本文作者认为，在视频数据中，由于物体自身的几何结构和运动模式不同，会产生不同的时序视觉变化，直接训练模型来预测整个画幅的变化，难度较大，所以本文假设，将视频场景分解成独立的个体，捕获每个个体的演变特点，然后再进行预测整合，可以提高整体预测的效果。

上图为对同一段视频帧序列的三种不同表示，视频帧、语义分割图和光流场，可以看出，视频帧中发生的动态变化相比语义分割图和光流场中的动态变化都更为复杂，所以作者提出将语义分割图（场景布局）和光流场（运动信息）分开处理，分别进行预测，并将它们的上下文信息进行整合，来进行未来帧的预测。

02

本文方法

本文的核心出发点是为了明确的进行动态语义建模，即动态模型的输入为视频帧的语义图和光流场

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。