【ICCV2021】COTR: Correspondence Transformer for Matching Across Images

Prettybritany

已于 2024-02-03 21:56:06 修改

阅读量1k

点赞数 26

分类专栏：图像配准论文阅读文章标签： transformer 深度学习人工智能图像处理

于 2024-02-03 21:53:09 首次发布

本文链接：https://blog.csdn.net/Prettybritany/article/details/136017014

版权

论文阅读同时被 2 个专栏收录

21 篇文章 0 订阅

订阅专栏

图像配准

10 篇文章 2 订阅

订阅专栏

本文介绍了一种新颖的深度学习框架COTR，利用Transformer处理图像间对应问题，能同时处理稀疏和密集映射，通过多尺度推理提供高精度匹配。COTR在多个任务和数据集上表现出色，无需为特定任务重新训练，强调了可复现性和数据、代码的公开。

摘要由CSDN通过智能技术生成

COTR: Correspondence Transformer for Matching Across Images

链接：COTR: Correspondence Transformer for Matching Across Images | IEEE Conference Publication | IEEE Xplore

Abstract

We propose a novel framework for finding correspondences in images based on a deep neural network that, given two images and a query point in one of them, finds its correspondence in the other. By doing so, one has the option to query only the points of interest and retrieve sparse correspondences, or to query all points in an image and obtain dense mappings. Importantly, in order to capture both local and global priors, and to let our model relate between image regions using the most relevant among said priors, we realize our network using a transformer. At inference time, we apply our correspondence network by recursively zooming in around the estimates, yielding a multiscale pipeline able to provide highly-accurate correspondences. Our method significantly outperforms the state of the art on both sparse and dense correspondence problems on multiple datasets and tasks, ranging from wide-baseline stereo to optical flow, without any retraining for a specific dataset. We commit to releasing data, code, and all the tools necessary to train from scratch and ensure reproducibility.

主要工作：该论文提出了一种基于深度神经网络的图像对应框架，可以在给定两幅图像和一幅图像中的查询点的情况下，在另一幅图像中找到其对应点。该方法可以选择只查询感兴趣的点并检索稀疏对应关系，或者查询图像中的所有点并获得密集映射。在推理阶段，通过逐步缩小区域的方式，应用对应网络，形成一种多尺度管线，能够提供高度精确的对应关系。

背景：在计算机视觉领域，寻找图像间的对应关系是一个重要且具有挑战性的问题，涉及到多种应用，包括立体视觉和光流估计。传统方法在稀疏或密集对应问题上存在一定的局限性，因此需要一种新的方法来有效解决这一问题。

方法：论文采用了基于transformer的深度神经网络，用于捕获图像间的局部和全局先验信息，并使用最相关的先验信息来处理不同图像区域之间的关系。在推理阶段，通过递归地围绕估计点进行缩放，形成多尺度管线，以提供高度精确的对应关系。

创新点：创新地提出了使用transformer实现图像对应，能够有效地捕获局部和全局的先验信息，同时通过多尺度管线提供高精度的对应结果，并且可以适用于多个数据集和任务，无需针对特定数据集进行重新训练。

成果：该方法在多个数据集和任务上显著优于现有技术，包括稀疏和密集对应问题，如宽基线立体视觉和光流估计，同时无需针对特定数据集重新训练。同时，研究承诺发布数据、代码以及所有必要的工具，以便从头开始进行训练，确保结果的可重现性。

2.Introduction

背景：在计算机视觉领域，图像间的对应关系是一项基础任务，应用广泛，包括相机标定、光流估计、结构运动恢复、视觉定位、点追踪以及人体姿态估计等。传统的对应关系方法主要分为稀疏和密集两种，分别用于不同的应用场景。

现有方法存在的问题：稀疏方法主要用于恢复全局相机运动，但在处理纹理较少的区域时表现较差；而密集方法用于处理一些小范围的运动，但对于大范围的相机运动处理效果有限。传统方法存在着在稀疏和密集方法之间存在较大的鸿沟，因为它们各自具有局限性，无法进行有效的综合。

研究方法：文章提出了一种新的网络架构，能够同时表达全局和局部的先验知识，并且能够从数据中隐式地学习这些知识。为实现这一目标，文章采用了互相关网络在表示平滑函数方面的归纳偏差，通过注意力机制学习如何利用先验知识，并且运用了transformer来自动控制先验知识的性质。这种方法既能够匹配任意查询点，也能够学习到平滑性并有效处理大相机运动。文章的主要技术贡献包括：提出一种结合稀疏和密集方法优点的功能对应架构；展示了如何在推理过程中递归地应用该方法来计算高精度的对应关系；证明了该方法在多个数据集和任务上都能实现稀疏和密集对应问题的最新性能，而无需重新训练；通过替换为基于多层感知器（MLP）的简单模型，使得transformer成为该方法的关键。

2.Related Work

先前的研究成果：

- 先前关于稀疏方法的研究主要集中在关键点检测、特征描述和特征匹配等方面，许多算法如DoG 和 FAST等关键点检测器以及手工制作或学习特征描述符等已经被广泛研究。

- 学习型特征提取器的引入（例如LIFT）以及其后续算法的发展也得到了广泛关注。

- 稀疏特征匹配通常被视为一个独立的阶段，包括特征描述符的匹配以及使用启发式算法进行匹配验证，同时稳健的匹配器也成为了重点研究对象。

现有的技术和方法：

- 稀疏方法主要包括特征检测、描述和匹配等阶段化方法，以及使用稳健匹配器进行匹配验证。

- 密集方法主要集中在解决光流等问题，其中经典方法如Lucas-Kanade和Horn-Schunck被广泛采用，并且近年来也出现了更现代化的算法。

- 关注机制使得神经网络可以聚焦在输入的某一部分，包括硬关注和软关注两种方式，近期也出现了将transformers应用于图像对应问题等新兴技术和方法。

空白领域：

- 稀疏方法中，尚未解决的问题主要包括稳健匹配器的探索和其在大量异常值情况下的适应能力。

- 密集方法方面，对于在大基线和外观变化剧烈情况下的稠密对应关系估计仍然是一个有待改进的领域。

- Attention mechanisms在图像领域的应用也处于早期阶段，有待进一步探索其在图像对应问题中的应用潜力。

总的来说，本篇文章的相关工作部分概述了稀疏和密集匹配的先前研究成果、现有的技术和方法，并指出了这些领域中存在的一些问题和改进空间。

3.Method

3.1.Problem formulation

3.2 Network architechture

1.将图像对输入共享的CNN骨干；

2.连接CNN输出的图像对特征并且加上位置信息得到上下文特征图c：

3.将c和查询点x输入transformer，再输入一个全连接层得到对应的特征点x‘：

上下文连接的重要性

1.使得transformer编码器可以关联图像内的信息和图像之间的信息；

2.连接使得特征图中的信息变得更句子中的单词一样，便于transformer处理

线性位置编码

同时查询多个特征点

可以同时输入多个查询点，但是要关闭自注意力机制来保证它们独立的解决。

3.3.Inference

用缩放的递归推断

transformer应用到视觉任务需要对图像进行下采样，但可能会导致特征点匹配不准确，为了解决这个问题，本文递归的使用网络。需要在缩放次数和计算资源之间做出一个平衡。

补偿规模差异

为了弥补尺度差异。在递归地匹配图像时，必须考虑图像之间可能存在的尺度不匹配问题。我们通过让要裁剪的补丁的尺度与每幅图像中通常可见的区域成比例来实现这一点，这个比例是在第一步使用整个图像计算得出的。为了提取这个区域，我们计算了每个像素在最粗糙级别上的循环一致性误差，并将其阈值设置为在256x256像素的图像上为⌧visible=5个像素；请参见图4。在后续阶段-放大倍数调整阶段-我们只需调整I和I0上的裁剪尺寸，以使它们的关系与有效像素的总和（图4中未标记的像素）成比例。

处理任意大小的图片

将其调整到256*256

丢弃错误的对应关系

拒绝误差大于某个阈值或者不收敛的对应关系

使用插值寻找密集对应关系

Prettybritany

关注

26
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
【ICCV2021】COTR: Correspondence Transformer for Matching Across Images

主要工作：该论文提出了一种基于深度神经网络的图像对应框架，可以在给定两幅图像和一幅图像中的查询点的情况下，在另一幅图像中找到其对应点。该方法可以选择只查询感兴趣的点并检索稀疏对应关系，或者查询图像中的所有点并获得密集映射。在推理阶段，通过逐步缩小区域的方式，应用对应网络，形成一种多尺度管线，能够提供高度精确的对应关系。背景：在计算机视觉领域，寻找图像间的对应关系是一个重要且具有挑战性的问题，涉及到多种应用，包括立体视觉和光流估计。
复制链接

扫一扫

专栏目录