ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】群

ICCV23|上海交通大学提出跨帧光流估计框架:AccFlow,对帧间光流进行累积获得长距离跨帧光流,适配任意帧间光流估计算法,即插即用

6cefc2c6573c7662f027ab46035769e4.png

在CVer微信公众号后台回复:AccFlow,可以下载本论文pdf和代码

论文:https://arxiv.org/abs/2308.13133

代码:https://github.com/mulns/AccFlow

近年来,光流估计算法在深度学习的加持下获得了性能上的突飞猛进。然而,现有的光流算法主要对视频相邻帧之间进行光流估计,而对跨帧光流的估计少有探索。本文提出了一种跨帧估计光流的算法,AccFlow,通过对邻帧光流进行累积来获得long-range光流。AccFlow可以配合任意帧间光流算法使用,即插即用。

反向累积

假设现在有一个T帧的视频,并有T-1个预先获得的帧间光流          a8cddf8d6f56becce0927d0b0946a69c.png。我们这些帧间光流不断累加即可获得长距离的跨帧光流。现在考虑两个光流的累加过程,可以分为两个步骤:首先,将两个光流向量的起点对齐;然后,将两个向量的值相加。这两个步骤中,难度较大的是对齐的过程,因为这其中存在由warping操作导致的遮挡问题。我们提出一种反向累积的方法,相比于前向累积,反向累积可以大大减轻遮挡问题。

237a4978a6c2393af3f241c2aaeb2cf5.png

如上图所示,我们将累积看作是红色箭头与蓝色箭头的相加。而黄色的虚线箭头,则代表着对齐距离。如果需要对齐的两帧在时间上的跨度较大,通常运动也就越大,而更大的运动则会导致更大的遮挡问题。因此,前向累积的遮挡问题随着时间的增加而逐渐增加。相比之下,反向累积的过程,我们发现对齐距离与时间无关,并始终保持最小值。我们统计了5000个数据下的遮挡比例,给出不同帧间间隔下(424ffa51d0ab075abcc794079f76ee53.png)遮挡比例的统计如下:

2f84181c1ae60f51946b00183a6bdb9b.png

5eff424e36e09942eadce7ed85872e1c.png

上图中,我们给出了一个实际的例子。可以看到,前向累积的遮挡区域比例随着迭代次数增加而持续增加。相反,反向累积的遮挡比例不随迭代次数而叠加,并始终保持较小的比例,因此更易于解决。这印证了我们提出的反向累积的重要性。

AccFlow网络

ac118a8f4107e82fd9bd21db5fd61671.png

AccFlow的网络结构分为两个部分:AccPlus和Adaptive Blending。其中,AccPlus是完成光流反向累积的核心部分。Adaptive Blending则提供一个补充信息,用于帮助网络更好地处理误差累积问题。在AccPlus网络中,我们使用可变形卷积对两个光流场进行特征对齐与特征融合,并自适应地对遮挡区域进行填补。进一步,我们利用Adaptive Blending将补充的信息进行融合,其中补充信息来自于对long-range光流的端到端估计(利用邻帧光流估计算法OFNet)。整个AccPlus网络结构简单且轻量。然而,AccPlus中的累积过程容易导致误差累积,因此,Adaptive Blending模块提供的补充信息提供一个端到端估计的motion feature作为补充信息,对累积误差进行矫正,从而获得了更好的效果。值得一提的是,OFNet在AccFlow框架中起到提供输入光流的作用,我们的实验发现OFNet可以用不同的光流算法代替,例如RAFT[1],GMA[2],GMFlow[3]等等。

数据集

为了有效训练AccFlow网络,我们提出了一个新的数据集CVO,它包含了11406个样本。其中,每个样本包括一个7帧的视频序列其对应的光流标签。与其他光流数据集不同的是,我们不仅提供了相邻帧之间的光流,还提供了不同帧间距下的跨帧光流。因此,CVO可以为相关任务提供更加丰富的标签数据,并有效帮助AccFlow学习long-range光流的生成。

实验结果  

2a52790b5dc48e703e2c0ae5178c4b67.png

如上图所示,我们探究了不同算法随着累积距离的增加而带来的性能变化。可以看到,AccFlow的EPE保持最低且变化幅度最小。相比之下,RAFT[1]和GMA[2]算法及其变体随着累积距离的增加性能逐渐下滑。其中,RAFT与GMA算法均在CVO数据集上进行fine-tune过,从而保证与AccFlow比较的公平性。‘-w’代表warmstart算法,可以看到用warmstart可以一定程度提升性能,但是对于长距离的光流估计仍然效果不佳。

fb577b431aa9c0473e896f6c137dea0a.png

上图中,我们展示了主观视觉效果的比较。‘-Lim’为一种光流累积的算法[4]。由上图可以看出,直接估计首尾帧的光流(左2)较为困难,用到accumulation的方法(左3至5)均有所提升。而AccFlow在遮挡情况更加复杂的运动上超越了其他算法。更多视觉效果对比可参见补充材料。

在CVer微信公众号后台回复:AccFlow,可以下载本论文pdf和代码

Reference   

[1] Zachary Teed and Jia Deng. Raft: Recurrent all-pairs field transforms for optical flow. In Proc. Eur.Conf. Comput. Vis. (ECCV), pages 402–419, 2020.

[2] Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, and Richard Hartley. Learning to estimate hidden motions with global motion aggregation. In Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), pages 9772–9781, 2021.

[3] Xu, Haofei and Zhang, Jing and Cai, Jianfei and Rezatofighi, Hamid and Tao, Dacheng. GMFlow: Learning Optical Flow via Global Matching. In Proc. IEEE/CVF CVPR, pages 8121-8130, 2022.

[4] SukHwan Lim, John G. Apostolopoulos, and Abbas El Gamal. Optical flow estimation using temporally oversampled video. IEEE Trans. Image Process., 14:1074–1087, 2005

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
ICCV (International Conference on Computer Vision) 是计算机视觉领域的重要国际会议,每年都会汇聚最新的研究成果。ICCV 2023 版本中,医学图像分割作为其中一个热门研究方向,关注的是如何使用计算机视觉技术来自动分析和分割医学影像中的结构或病变,这对于疾病诊断、手术规划和治疗效果评估具有重要意义。 在ICCV 2023上,可能会探讨以下几个方面: 1. **深度学习方法**:深度学习特别是卷积神经网络(CNN)和递归神经网络(RNN)在医学图像分割中的应用会持续发展,比如U-Net、SegNet、Unet++等模型的改进和集成。 2. **弱监督和半监督学习**:减少标注数据的需求,通过利用大量未标注或部分标注的图像来提升分割性能。 3. **注意力机制**:自注意力机制可能会被用于更精准地聚焦于图像中的关键区域,提高分割的精度。 4. **医学图像的多模态融合**:结合不同类型的医学图像,如CT、MRI、PET等,以获得更全面的特征信息。 5. **迁移学习与预训练模型**:利用预训练在大规模数据集(如ImageNet)上的模型,然后在医疗领域的特定任务上微调。 6. **算法评估与挑战**:如何设计有效的评价指标和基准,以及组织针对特定医学图像分割任务的比赛。 相关问题--: 1. ICCV 2023中有哪些新型的医学图像分割算法被提出? 2. 在医学图像分割中,如何处理数据不平衡的问题? 3. 有没有在ICCV 2023上展示的成功案例,证明了医学图像分割技术的实际临床价值?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值