ICCV 2023 | 即插即用！上海交大提出AccFlow：跨帧光流估计框架

最新推荐文章于 2024-05-23 23:20:19 发布

Amusi（CVer）

最新推荐文章于 2024-05-23 23:20:19 发布

阅读量1.8k

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247582165&idx=2&sn=e7060905ca97885759eea7a60d0924f0&chksm=f9a0f35aced77a4c39da808929a03050400f37ea55db871aedd572ebbe91d2a312a9ae9645b7&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【目标检测和Transformer】群

ICCV23｜上海交通大学提出跨帧光流估计框架：AccFlow，对帧间光流进行累积获得长距离跨帧光流，适配任意帧间光流估计算法，即插即用

在CVer微信公众号后台回复：AccFlow，可以下载本论文pdf和代码

论文：https://arxiv.org/abs/2308.13133

代码：https://github.com/mulns/AccFlow

近年来，光流估计算法在深度学习的加持下获得了性能上的突飞猛进。然而，现有的光流算法主要对视频相邻帧之间进行光流估计，而对跨帧光流的估计少有探索。本文提出了一种跨帧估计光流的算法，AccFlow，通过对邻帧光流进行累积来获得long-range光流。AccFlow可以配合任意帧间光流算法使用，即插即用。

反向累积

假设现在有一个T帧的视频，并有T-1个预先获得的帧间光流。我们这些帧间光流不断累加即可获得长距离的跨帧光流。现在考虑两个光流的累加过程，可以分为两个步骤：首先，将两个光流向量的起点对齐；然后，将两个向量的值相加。这两个步骤中，难度较大的是对齐的过程，因为这其中存在由warping操作导致的遮挡问题。我们提出一种反向累积的方法，相比于前向累积，反向累积可以大大减轻遮挡问题。

如上图所示，我们将累积看作是红色箭头与蓝色箭头的相加。而黄色的虚线箭头，则代表着对齐距离。如果需要对齐的两帧在时间上的跨度较大，通常运动也就越大，而更大的运动则会导致更大的遮挡问题。因此，前向累积的遮挡问题随着时间的增加而逐渐增加。相比之下，反向累积的过程，我们发现对齐距离与时间无关，并始终保持最小值。我们统计了5000个数据下的遮挡比例，给出不同帧间间隔下（）遮挡比例的统计如下:

上图中，我们给出了一个实际的例子。可以看到，前向累积的遮挡区域比例随着迭代次数增加而持续增加。相反，反向累积的遮挡比例不随迭代次数而叠加，并始终保持较小的比例，因此更易于解决。这印证了我们提出的反向累积的重要性。

AccFlow网络

AccFlow的网络结构分为两个部分：AccPlus和Adaptive Blending。其中，AccPlus是完成光流反向累积的核心部分。Adaptive Blending则提供一个补充信息，用于帮助网络更好地处理误差累积问题。在AccPlus网络中，我们使用可变形卷积对两个光流场进行特征对齐与特征融合，并自适应地对遮挡区域进行填补。进一步，我们利用Adaptive Blending将补充的信息进行融合，其中补充信息来自于对long-range光流的端到端估计（利用邻帧光流估计算法OFNet）。整个AccPlus网络结构简单且轻量。然而，AccPlus中的累积过程容易导致误差累积，因此，Adaptive Blending模块提供的补充信息提供一个端到端估计的motion feature作为补充信息，对累积误差进行矫正，从而获得了更好的效果。值得一提的是，OFNet在AccFlow框架中起到提供输入光流的作用，我们的实验发现OFNet可以用不同的光流算法代替，例如RAFT[1]，GMA[2]，GMFlow[3]等等。

数据集

为了有效训练AccFlow网络，我们提出了一个新的数据集CVO，它包含了11406个样本。其中，每个样本包括一个7帧的视频序列其对应的光流标签。与其他光流数据集不同的是，我们不仅提供了相邻帧之间的光流，还提供了不同帧间距下的跨帧光流。因此，CVO可以为相关任务提供更加丰富的标签数据，并有效帮助AccFlow学习long-range光流的生成。

实验结果

如上图所示，我们探究了不同算法随着累积距离的增加而带来的性能变化。可以看到，AccFlow的EPE保持最低且变化幅度最小。相比之下，RAFT[1]和GMA[2]算法及其变体随着累积距离的增加性能逐渐下滑。其中，RAFT与GMA算法均在CVO数据集上进行fine-tune过，从而保证与AccFlow比较的公平性。‘-w’代表warmstart算法，可以看到用warmstart可以一定程度提升性能，但是对于长距离的光流估计仍然效果不佳。

上图中，我们展示了主观视觉效果的比较。‘-Lim’为一种光流累积的算法[4]。由上图可以看出，直接估计首尾帧的光流（左2）较为困难，用到accumulation的方法（左3至5）均有所提升。而AccFlow在遮挡情况更加复杂的运动上超越了其他算法。更多视觉效果对比可参见补充材料。

在CVer微信公众号后台回复：AccFlow，可以下载本论文pdf和代码

Reference

[1] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. In Proc. Eur.Conf. Comput. Vis. (ECCV), pages 402–419, 2020.

[2] Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, and Richard Hartley. Learning to estimate hidden motions with global motion aggregation. In Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), pages 9772–9781, 2021.

[3] Xu, Haofei and Zhang, Jing and Cai, Jianfei and Rezatofighi, Hamid and Tao, Dacheng. GMFlow: Learning Optical Flow via Global Matching. In Proc. IEEE/CVF CVPR, pages 8121-8130, 2022.

[4] SukHwan Lim, John G. Apostolopoulos, and Abbas El Gamal. Optical flow estimation using temporally oversampled video. IEEE Trans. Image Process., 14:1074–1087, 2005

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号