ECCV 2022 | 港中文MMLab:基于Transformer的光流

FlowFormer是港中文MMLab在ECCV 2022上提出的一种新方法,将Transformer架构引入光流估计,显著提高了性能。通过Alternate-Group Transformer (AGT)层和Recurrent Transformer Decoder,FlowFormer在Sintel和KITTI数据集上展现出优秀的泛化性和精度,降低误差达50.4%和45.3%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

629d72abbe325eceadcb8c873bb8bc48.gif

©PaperWeekly 原创 · 作者 | Zhaoyang Huang

单位 | 香港中文大学MMLab

研究方向 | 视觉关联性学习

Transformer 今年在图像领域展现出了很好地性能,相比于 CNN,它们的优势之一是基于注意力机制的长程建模能力。本文解读港中文 MMLab 在 ECCV 2022 上发表的论文《FlowFormer: A Transformer Architecture for Optical Flow》。这项工作提出了 FlowFormer 算法将 Transformer 结构结合进光流估计的框架中,显著提升了光流估计的性能。

只在 FlyingChairs+FlyingThings 上训练后,FlowFormer 在 Sintel Training 的 clean 与 final 两个子集中分别取得了 0.64 与 1.50 AEPE。与之前发表的最好结果(1.29 和 2.74)相比,误差下降了 50.4% 和 45.3%,体现了其卓越的泛化性。在公开的 Sintel benchmark(test)上,FlowFormer  在clean 和 final 两个子集中取得了 1.159 和 2.088 AEPE,降低了此前发表的最优误差(1.388 和 2.47)达 16.5% 和 15.5%。

e95db0c6c72fad3a790deb1dbc1ec96b.png

论文标题:

FlowFormer: A Transformer Architecture for Optical Flow

收录会议:

ECCV 2022

论文主页:

https://drinkingcoder.github.io/publication/flowformer/

33fd247904b63c02eed70d179218676e.png

9f4f85017b14ca0b0dfa83ce0a618751.png

论文介绍

光流的目标是估计源图像中每个像素在目标图像的对应位置,在许多下游任务,如动作识别、视频修复、视频超分等任务中提供重要输入。本文首先简要介绍 RAFT。RAFT 先使用一个孪生 CNN 从一对 H x W 图像中抽取视觉特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值