©PaperWeekly 原创 · 作者 | Zhaoyang Huang
单位 | 香港中文大学MMLab
研究方向 | 视觉关联性学习
Transformer 今年在图像领域展现出了很好地性能,相比于 CNN,它们的优势之一是基于注意力机制的长程建模能力。本文解读港中文 MMLab 在 ECCV 2022 上发表的论文《FlowFormer: A Transformer Architecture for Optical Flow》。这项工作提出了 FlowFormer 算法将 Transformer 结构结合进光流估计的框架中,显著提升了光流估计的性能。
只在 FlyingChairs+FlyingThings 上训练后,FlowFormer 在 Sintel Training 的 clean 与 final 两个子集中分别取得了 0.64 与 1.50 AEPE。与之前发表的最好结果(1.29 和 2.74)相比,误差下降了 50.4% 和 45.3%,体现了其卓越的泛化性。在公开的 Sintel benchmark(test)上,FlowFormer 在clean 和 final 两个子集中取得了 1.159 和 2.088 AEPE,降低了此前发表的最优误差(1.388 和 2.47)达 16.5% 和 15.5%。
论文标题:
FlowFormer: A Transformer Architecture for Optical Flow
收录会议:
ECCV 2022
论文主页:
https://drinkingcoder.github.io/publication/flowformer/
论文介绍
光流的目标是估计源图像中每个像素在目标图像的对应位置,在许多下游任务,如动作识别、视频修复、视频超分等任务中提供重要输入。本文首先简要介绍 RAFT。RAFT 先使用一个孪生 CNN 从一对 H x W 图像中抽取视觉特征