2021 ICCV : Instance-level Image Retrieval using Reranking Transformers

qq_18939335

已于 2022-03-16 14:43:24 修改

阅读量1.9k

点赞数

分类专栏：图像检索文章标签：算法计算机视觉机器学习

于 2021-03-31 21:47:33 首次发布

本文链接：https://blog.csdn.net/qq_18939335/article/details/115360201

版权

1、Abstract

实例级图像检索是在大型数据库中搜索与查询图像中的对象匹配的图像的任务。为了完成这项任务，系统通常依赖于使用全局图像描述符的检索步骤，以及通过利用诸如基于局部特征的几何验证之类的操作来执行特定于域的细化或重新排序的后续步骤。在这项工作中，我们提出了一个通用的模型，将局部和全局特征结合起来，以监督的方式重新排列匹配图像，从而取代了相对昂贵的几何验证过程。rrt是轻量级的，并且可以很容易地并行化，这样就可以在一次向前传递中重新排列一组顶级匹配结果。我们在重新访问的牛津和巴黎数据集以及Google Landmark v2数据集上进行了广泛的实验，结果表明RRTs在使用更少的局部描述符的同时，优于先前的重排序方法。此外，我们证明，与现有的方法不同，RRTs可以与特征提取器联合优化，这可以导致为下游任务定制的特征表示，并进一步提高精度。培训代码和预先培训的模型将公开。

2、 Introduction

实例识别是一项具有挑战性的任务，其目的是对对象实例进行简单的识别。这与只识别对象类的类别级识别不同。实例识别在电子商务中是很重要的，因为它需要在一个大的图像集合中找到一个特定的产品，或者在原地识别中，目标是从公共地标推断一个地方的身份。由于实例的数量远大于对象类别的数量，实例识别通常被转换为图像检索而不是分类，通常包括度量学习和基于局部特征的重排序。

在过去的十年中，实例识别仍然是研究的一个主要焦点。开创性的系统杠杆老化手工制作的本地描述符和匹配算法图1。顶级实例识别方法通常依赖于使用诸如几何验证的内部对应数之类的分数对顶级结果进行重新排序。我们建议将此步骤替换为可使用图像的底层表示来学习的重排序变换器（RRT）。里瑟姆斯[46，37]。最近的方法结合了从深度学习模型中提取的全局和局部描述符[3，33]。全局描述符将图像的内容汇总为一个向量，从而为大规模搜索提供一个紧凑的表示。局部描述符对视觉元素的空间布局进行编码，以进行斑块级匹配，并且对于高检索精度非常重要[50，10]。现有的最佳方法[45，10]通常使用全局描述符来减少解空间，然后使用局部描述符来重新排列最近的图像。虽然在利用全局特征改进图像检索方面取得了很大的进展，但在基于局部特征的相似性度量方面所做的工作却很少。最先进的方法仍然依赖于经典的匹配技术，如几何验证（GV）[37]和聚集选择性匹配核（ASMK）[49]。几何验证假设对象实例是刚性的，并且图像之间的局部匹配可以使用RANSAC估计为仿射变换[20]。这也是一个昂贵的过程，需要对大量的局部描述符进行迭代优化。ASMK更关注于聚合特征之间的相似性，而没有显式地建模几何对齐，但需要离线聚类和编码过程。在以往的文献中，它主要作为一种全局检索技术使用。两种几何验证附件十四：2103.12236v1[cs.CV公司]2021年3月22日

为了保证检索性能，action和ASMK需要大量的局部描述符（例如每幅图像1000个）

在这项工作中，我们提出了重排Transformers（RRTs），它学习直接预测图像对的相似性。我们的方法是通用的，可以作为替代其他重排序方法，如几何验证。我们进行了详细的实验，实验结果表明，无论是作为一个替代品，还是通过一种全局度量学习方法来训练，所提出的方法都是在实例识别的标准基准上表现最好的。RRT利用了以前的体系结构[53]，这使得一些自然语言处理[16，27]以及视觉和语言任务[26，13，30]有了显著的改进。最近，它还被用于纯视觉任务，特别是年龄识别[18]和目标检测[11]。据我们所知，我们的工作是第一个将变换器应用于视觉任务，包括在重新排列图像搜索结果的上下文中分析图像对。

重排Transformers（RRTs）是轻量级的。与具有超过2000万个参数的CNN特征提取器（例如ResNet 50中的2500万个）相比，所提出的模型仅具有220万个参数。它也可以很容易地并行化，以便对排名前100的邻居进行重新排序仅需要一个前向通过。与几何验证类似，我们的方法旨在学习图像对的区域对齐方式，但要使用更简单的管道。如图1所示，我们的方法可以直接预测匹配图像的相似度得分，而不是估计单应性，这在较大的视点变化下可能具有挑战性，甚至对于可变形对象也可能不存在。我们的方法所需的描述符少得多，但可以实现出色的性能，尤其是对于具有挑战性的情况。而且，在当前的最新技术模型中，特征提取和匹配模块是分别优化的，这是不希望的，因为这可能导致次优的特征表示。在本文中，我们首先使用预训练的特征提取器进行实验。然后，我们以产品图片为基准，展示了将特征提取器和建议的模型集成到统一框架中的好处[47]。我们表明，通过与我们的模型共同优化特征表示，可以进一步提高重排性能。

贡献。

（1）我们提出了一种小而有效的模型——重排序变换（RRT），它可以根据图像对的全局和局部描述符来预测图像对的相似性；（2）与现有的方法相比，RRT需要更少的局部描述符，并且可以容易地并行化，这样重新排列顶级邻居只需要一次向前传递；（3）我们在三个实例检索基准上进行了广泛的实验：Reviewed Oxford/Paris[39]和Google Landmarks v2[56]，并表明RRTs在各种设置下都优于先前的重排序方法。结果证明了Transformers在学习图像对的视觉相似性方面的有效性；（4）我们进一步证明了在斯坦福在线产品（SOP）[47]基准上与特征提取器联合优化所提出模型的好处。

3、Related Work

用于实例识别/检索的局部特征。

手工制作的局部描述符[31]，例如SIFT[29]，在最早的实例检索工作中被广泛使用[46，32]。最近，从卷积神经网络（CNN）中提取的局部特征被证明在各种检索任务中更有效[33，48，45，19]。这些工作通常通过非局部最大抑制[34,19,50]或视觉注意[33,48,10]来共同学习特征检测和表示。检测到的局部描述符通常用于几何验证[37]或ASMK[49]。与这些工作不同的是，我们关注的是相似性学习，而不是特征检测或表示学习。

全局功能，例如识别/检索。

与局部特征相比，全局描述符为大规模搜索提供了图像的紧凑表示。
当前的全局描述符通常是通过空间池[2、52、38]从CNN模型[3、52、38、21]中提取的，这对于在整个图像之间建立区域关系建模可能不是理想的选择。因此，最先进的系统通常要么使用全局描述符来减少解空间，然后使用本地描述符对最近的邻居重新排序，要么使用大型可视码本对本地描述符进行编码，然后通过聚合的选择性匹配内核[49，48，50]。这项工作主要遵循检索和重排范式。

重新排序，例如识别/检索。

几何验证是图像重新排序的主要方法，在传统[37]和最近的工作[45、33、10]中均得到广泛使用。几何验证假设刚性对象，并试图通过迭代对齐局部描述符来估计图像之间的线性变换。受文本检索的启发，查询扩展技术也已引入图像检索[15、14、51]。这些方法不同于几何验证和我们的工作，因为它们依赖于在测试过程中为每个查询分析局部最近邻图。另一方面，基于扩散的方法[17、58、24、5、4]旨在通过在基于查询和所有图库图像的全局亲和图上的相似性传播来学习数据流形的结构，这是不平凡的规模。总体而言，图像重排的动机是更好地利用测试时知识边缘来完善检索结果。我们的工作与这方面的研究具有相同的愿景，但更多地侧重于直接了解图像对的相似性。