CVPR2024 | 视频插帧视觉效果新突破!上海交大提出PerVFI,视频插帧新范式

关注公众号,发现CV技术之美

分享一篇来自CVPR2024的视频插帧工作《Perception-Oriented Video Frame Interpolation via Asymmetric Blending》。

该论文提出的视频插帧算法PerVFI在视觉效果上实现了新的突破。同时,论文阐述了新的视频插帧范式,有效解决现有插帧算法的痛点。

2467480fd8a3b5c24eeccddb36918cbe.png
  • 论文地址:

https://openaccess.thecvf.com/content/CVPR2024/html/Wu_Perception-Oriented_Video_Frame_Interpolation_via_Asymmetric_Blending_CVPR_2024_paper.html

  • 论文代码:

https://github.com/mulns/PerVFI

b7a4f6eba10140c775f02d5983934e46.png

技术背景

视频插帧技术一直是视频处理中的关键任务之一。给定特定时刻的视频图像(参考帧),视频插帧技术旨在合成中间时刻的图像,从而将低帧率的视频转化为高帧率视频。视频插帧技术可以被广泛用于多媒体行业,例如视频生成、视频质量优化、视频剪辑等。

现存问题

尽管基于神经网络的视频插帧技术正在快速更新优化,现有的算法仍然面临以下问题:生成的视频普遍存在模糊、重影问题。这篇论文总结这类问题的产生原因如下:

1.对无法避免的运动误差考虑不足。无论使用光流算法还是插帧算法自带的运动估计器,都无法避免会存在运动误差,尤其是在图像运动幅度较大的情况下。在此情况下不加以特别处理的话,容易出现重影问题。

2.由于训练数据中的ground-truth图像并不是唯一解,且存在与目标时间不对齐的问题。在此情况下,训练时使用重建损失容易导致结果模糊。

解决方案(新范式)

  1. 针对运动误差:由于本文专注于提升合成视频的视觉质量,因此物体运动上存在一定程度上的偏移是可以接受的。然而,这种偏移会导致从不同参考帧映射到时间t的特征不对齐。因此,相比简单地将不对齐特征进行自适应融合(对称融合),本文提出的利用稀疏约束来进行非对称融合的方法,可以有效缓解重影现象。

  2. 针对监督信号时域不对齐:采用Normalizing flow-based Network作为生成器,学习监督信号的分布,从而解决解空间不唯一导致的模糊问题,重建出清晰的结果。

网络结构

14d62be24748964abbc5181a2fba67b3.png

  1. ASB模块为新设计的非对称融合模块,利用稀疏化的权重Mask来控制信息融合的非对称性。PAM为特征对齐模块,ADM为权重掩码的合成模块。

  2. 在获得了融合的多尺度特征之后,利用Normalizing Flow-based Network来进行条件生成。这是一个可逆网络,正向/反向分别代表Encoding/Decoding过程。

实验效果

75c7feb0f0c110bcbc6c10607bf6324d.png

在面向感知的图像质量评价指标LPIPS和视频插帧质量评价指标FloLPIPS、VFIPS上,PerVFI算法都远优于其他算法。

更多视觉质量可视化可以参考项目主页:

https://mulns.github.io/pervfi-page/

未来工作

  1. 由于这篇文章重点在于提出一种新的范式,因此网络结构上有很大的优化空间,可以通过进一步改良各模块结构来达到更高的效率和性能。

  2. 文章中网络的训练仅使用了Vimeo90K数据集,便获得了较好的泛化能力。后续可以通过质量数量更优的数据集训练来进一步提升性能。

最新 AI 进展报道
请联系:amos@52cv.net

30010df3012493db4464c8d594b192b1.jpeg

END

欢迎加入「视频处理交流群👇备注:vid

999d1fbf5c4bab5c65dc29507c397fb0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值