论文阅读 | Optimizing Video Prediction via Video Frame Interpolation

前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络
论文地址:【here】

Optimizing Video Prediction via Video Frame Interpolation

引言

介绍了什么是视频预测,即给连续两张图片预测接下来一张图片或几张图片
目前视频预测存在的问题:需要对场景设置限制,泛化性不好
文章思想:利用已经成熟领域的视频插帧的网络进行视频预测

网络架构

优化流程
这张架构图可以清晰明了的阐释优化过程
在这里插入图片描述
视频插帧网络G选定,已知xt-1和xt图片
先初始化一个ft+1-t的光流,后向warp得到xt+1图片
将xt+1和xt-1输入网络,可以由网络得到输出It,和已有的xt比较得到一个图像级别的损失,光流比较也可以得到一个图像级别的损失,这两个损失加权集合起来得到一个总损失
于是
在这里插入图片描述
利用这样的一个微分后向传播公式,不断的更新原初始化光流,于是又可以重新开始一次迭代
文章给了实验的迭代次数和结果的关系
在这里插入图片描述
这就是整个网络的一个流程,还是比较简单明了的

实验细节
作者还给了一些实验细节
初始化的输入光流
作者利用下面的公式来初始化光流
在这里插入图片描述
即使前向光流t-t-1取负,约等于t-t+1,再利用前向后向光流相互转换的计算得到后向光流t+1-t

网络的最终输出
一般的插帧网络的输出都由两部分组成,即左右两边帧warp后的融合而成
在这里插入图片描述
这里作者只用右边帧warp后的结果,即(6),作者解释It+1和Xt+1更接近并可以不用考虑mask的影响

实验结果

在驾驶数据集上
在这里插入图片描述

在其他数据集上
在这里插入图片描述
可以发现结果提升非常明显,可见用视频插帧的方法应用到视频预测是有效的,并且二者发展的成熟度相差很多

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值