2019CVPR论文之Detect-to-Retrieve: Efficient Regional Aggregation for Image Search

最新推荐文章于 2023-02-24 17:58:45 发布

想吃大熊猫啊

最新推荐文章于 2023-02-24 17:58:45 发布

阅读量2.7k

点赞数 1

文章标签： CVPR 2019 区域检索

2019CVPR论文之Detect-to-Retrieve: Efficient Regional Aggregation for Image Search@TOC

论文链接：https://arxiv.org/pdf/1812.01584.pdf

检测到检索:用于图像搜索的有效区域聚合

摘要
在杂乱的场景中高效地检索对象实例需要紧凑而全面的区域图像表示。直观地说，对象语义可以帮助构建关注最相关区域的索引。然而，由于缺少针对检索基准中感兴趣对象的边界框数据集，最近关于区域表示的工作主要集中在统一区域选择或与类无关的区域选择上。在本文中，我们首先通过提供一个新的地标边界框数据集来填补这一空白，这个数据集是基于谷歌Landmarks数据集，其中包括86k张图片和来自15k个unique Landmarks的手动编辑框。然后，我们演示了如何使用我们的新数据集，训练一个地标探测器，可以利用索引图像区域和提高检索精度，同时比现有的区域方法更有效。此外，我们还引入了一种新的区域聚合选择匹配核(R-ASMK)来有效地将检测区域的信息组合成一种改进的整体图像表示。在不增加维数的情况下，R-ASMK大大提高了图像检索的准确性，甚至优于单独的索引图像区域的系统。我们完整的图像检索系统在之前的先进水平的基础上进行了改进，在 Revisited Oxford and Paris datasets有显著优势。

引言
本文主要针对图像检索问题:给定一个查询图像，系统应该有效地从数据库中检索相似的图像。图像检索系统通常由两个主要阶段组成:(1)过滤，一种根据数据库图像与查询的相似性对其进行排序的有效技术;(2)重新排序，对第一阶段的少量最相似的数据库图像进行更详细的检查并重新排序。
通常，手工标记的局部特性[21,6]与受单词启发的技术[36,26,27,14,15,16,38]相结合，构建过滤步骤中使用的高维表示。局部特征匹配和几何验证26,27,3是有效的重新排序策略。最近，针对这两个阶段提出了几种深度学习技术。基于卷积神经网络(CNN)的全局图像表示可以产生紧凑的嵌入，从而在滤波步骤中实现快速的相似度计算[5,4,40,1,9,30]。局部图像表示也可以使用CNNs提取，适合通过空间匹配和几何验证重新排序[25,24,23]。
当前的图像检索系统往往会在相关对象在数据库图像中没有占据足够大的比例时失败，尤其是在一些混乱的场景中。通常，这些对象产生的局部特性可用于在重新排序阶段根据查询查找本地匹配项。然而，这些杂乱的图像通常无法达到重新排序的阶段，因为与过滤阶段的查询相比，它们的初始表示不会产生很高的相似性。估计查询图像的改进相似性最常见的解决方案是，使用固定的区域网格[2,31]或类无关的检测器[37,17]，提取并单独存储数据库中感兴趣区域的图像表示形式。然而，现有的区域选择技术产生了大量的不相关区域。在最近的一次大规模实验图像检索评估中，Radenovic等人[28]得出结论，这种区域搜索方法在内存和延迟方面的代价太高，只能获得很小的精度增益。
贡献 (1)第一个贡献是改进了区域选择:通过引入了一个人工装箱的地标图像数据集，其中包含来自15k个唯一类的86k个图像，我们证明了可以训练检测器进行健壮的地标定位。(2)第二个贡献是利用训练有素的探测器，产生更有效的区域搜索系统，该系统只需要稍微增加数据库大小就可以提高小目标的准确性——比以前提出的技术效率高得多。(3)第三个贡献中，提出了区域聚合匹配内核来利用选定的图像区域，并产生一个有区别的图像表示，如图1所示。这种新的表示方式显著优于区域搜索系统，同时更高效:每个图像只需要存储一个描述符。我们的图像检索系统在重访问牛津硬数据集上的绝对平均精度比以前发表的结果高9.3%，在重访问巴黎硬数据集[28]上的绝对平均精度高1.9%。
在这里插入图片描述

相关工作
数据集：

图像检索和聚合：在图像检索系统中，对区域选择进行了研究。它们被用于两个不同的目的:(i)区域搜索:选定的区域在数据库中独立编码，以便检索子图像;(二)区域聚合:利用选定区域改进图像表示。

Google Landmark Boxes Dataset
新创建了数据集-Google Landmark Boxes Dataset，描述手动聚合过程。这个数据集是依托于Google Landmark Dataset （GLD）数据集，包含15K个独特地标的1.2M图像。
　这个数据集中的每个图像都被认为只描述一个landmark。在某些情况下，地标可能由一组建筑物组成:例如，在此数据集中常见的天际线被视为单个地标。由于GLD是以半自动的方式收集的，考虑到热门的旅游景点，有时会模糊地标可能是什么。在收集边界框注释时，我们的目标是捕获图像中最突出的地标，因为每个图像只分配一个地标标签。每个框应该反映在每个数据集图像中显示的主要对象(或一组对象)。出于这个原因，我们指示人工操作人员为每张图像绘制最多一个框。
　在这种细粒度数据集中的主要挑战之一是每个类的图像样本数量的固有长尾。在GLD中，一些地标与数千个图像相关联，而对于大约一半的类，只提供了10个或更少的图像。我们的目标是在我们的新数据集中以一种平衡的方式表示地标，这样经过训练的检测器就能够定位各种各样的对象。因此，我们首先将1.2M训练集的一部分分割成一个验证集，我们随机选择4个训练集和4个验证图像作为每个地标。总的来说，这将产生58k和36k的盒装图像，分别用于培训和验证。注意，这意味着对于大约40%的地标，所有可用的图像都进行了注释。
　带注释的图像示例如图2所示。在某些情况下，识别一个突出的地标是不可能的(见图3):感兴趣的地标可能被遮挡，或者图像实际上可能显示一个地标的周围环境。我们从构建的数据集中删除了这种情况(这适用于最初选择的8%的图像)，从而得到一个包含54k和32k盒装图像的最终数据集，分别用于训练和验证。
　在这里插入图片描述

区域检索和聚合
　论文的技术，通过训练的地标探测器并利用边界框预测以提高图像检索性能。特别是，这种方法构建在深度局部特性(DELF)[25]和聚合选择匹配内核(ASMK)[38]之上，最近的研究表明，这些特性在大型图像检索基准[28]上表现了最先进的性能。
4.1背景
　
通过Tolias 等人的聚合匹配核函数框架，可以将一个图像描述成在每一个维度D上包含M个位置描述符的集合，一个由C个视觉语言组成的码本C，使用k-means学习，用来量化这个描述符。可以利用最近邻算法判断图像X描述符哪些是视觉语言。所以根据这个框架就可以对两个图像之间的相似性进行计算
在这里插入图片描述
X，Y是两个图像，x和y是在每一个维度D上包含M个位置描述符的集合，这个公式包含流行的局部特性聚合技术，如VLAD
4.2 区域搜索
　在这节中，将考虑在数据库中独立存储区域描述符的图像检索系统。查询图像为Z，图像数据集为N，我们主要对实验性配置感兴趣，其中查询包含一个良好局部的感兴趣区域(即，实际查询只包含一个区域)，这是图像检索中常见的设置。对于第n个数据集图像，由地标检测推断出区域，定义子图像（Y^(n,rn))。其中将Y^(n，1)=Y⁽ⁿ⁾表示为对应于原始图像的子图，并始终将其看做有效区域。
　为了计算查询图像Ｘ和数据图像Y⁽ⁿ⁾之间的相似性，分别考虑最大池化层或平均池化层个体区域的相似性:
在这里插入图片描述
　最大池化层对应于仅考虑数据库图像中最高得分子图来分配数据库图像的得分。平均池化层来自所有子图像的贡献。
4.3 区域聚合匹配核函数
　在数据库中单独存储每个区域的描述符会增加内存和搜索计算的开销。在本节中，考虑使用检测到的边界框来改进数据库图像的聚合表示，从而在不增加任何额外成本的情况下生成有区别的描述符。将Tolias等人的聚合匹配内核框架[38]扩展到区域聚合匹配内核，如下所示。
　首先，平均池化层的相似性可以写为：
在这里插入图片描述
**简单区域聚合：**对于VLAD算法，这个算法可以扩展为

其中
该推导表明，区域VLAD相似性的平均池化层可以使用聚合的区域描述符执行，并且不需要分别存储每个区域的表示。论文将这个简单的区域聚合内核称为R-VLAD，
可以将这个推导推广到ASMK，讲这种思想应用在比较查询ASMK表示与此聚合表示进行比较时的选择性函数上。这种推广称为Naive-R-ASMK。
无论是R-VLAD内核还是Naive-R-ASMK内核，在使用每个图像和大码本的许多检测区域时都存在一个重要的问题。对于给定的图像区域，大多数视觉语言不会与任何局部特征相关联，从而导致该区域出现许多全零残差。对于只在少数区域观察到的与视觉模式相对应的视觉语言，会导致残差显著下降。论文使用如下方式开发R ASMK内核来修复这个缺陷。
**R-ASMK：**定义查询图像与数据库图像间的R-ASMK相似性为
在这里插入图片描述
**R-AMK：**在本节中给出的内核可以看作是一般区域聚合匹配内核(R-AMK)的不同实例化，定义如下:

注意，这个定义涉及到两个图像的区域聚合，而在本文中，关注的是只将区域聚合应用于数据库图像的非对称情况。当查询图像本身是感兴趣的良好局部区域时(这是图像检索基准测试中常见的设置)，非对称情况更加相关。
**二值化：**对于具有大量视觉语言的代码本，这种聚合表示形式的存储成本可能过高。在这些情况下，二值化是一种允许可伸缩检索的有效策略。