论文阅读 | Optimizing Video Prediction via Video Frame Interpolation

btee

已于 2022-12-06 00:48:16 修改

阅读量342

点赞数

文章标签：论文阅读计算机视觉人工智能

于 2022-12-06 00:34:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bettii/article/details/128195547

版权

前言：CVPR2022利用视频插帧做视频预测的文章，用到的是优化的思想，不用训练网络
论文地址：【here】

Optimizing Video Prediction via Video Frame Interpolation

引言

介绍了什么是视频预测，即给连续两张图片预测接下来一张图片或几张图片
目前视频预测存在的问题：需要对场景设置限制，泛化性不好
文章思想：利用已经成熟领域的视频插帧的网络进行视频预测

网络架构

优化流程
这张架构图可以清晰明了的阐释优化过程
在这里插入图片描述
视频插帧网络G选定，已知xt-1和xt图片
先初始化一个ft+1-t的光流，后向warp得到xt+1图片
将xt+1和xt-1输入网络，可以由网络得到输出It，和已有的xt比较得到一个图像级别的损失，光流比较也可以得到一个图像级别的损失，这两个损失加权集合起来得到一个总损失
于是
在这里插入图片描述
利用这样的一个微分后向传播公式，不断的更新原初始化光流，于是又可以重新开始一次迭代
文章给了实验的迭代次数和结果的关系

这就是整个网络的一个流程，还是比较简单明了的

实验细节
作者还给了一些实验细节
初始化的输入光流
作者利用下面的公式来初始化光流
在这里插入图片描述
即使前向光流t-t-1取负，约等于t-t+1,再利用前向后向光流相互转换的计算得到后向光流t+1-t

网络的最终输出
一般的插帧网络的输出都由两部分组成，即左右两边帧warp后的融合而成
在这里插入图片描述
这里作者只用右边帧warp后的结果，即（6），作者解释It+1和Xt+1更接近并可以不用考虑mask的影响

实验结果

在驾驶数据集上
在这里插入图片描述

在其他数据集上
在这里插入图片描述
可以发现结果提升非常明显，可见用视频插帧的方法应用到视频预测是有效的，并且二者发展的成熟度相差很多

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读 | Optimizing Video Prediction via Video Frame Interpolation

CVPR2022利用视频插帧做视频预测的文章，用到的是优化的思想，不用训练网络
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。