（一）Is there anything new to say about SIFT matching?

深耕图像匹配

已于 2024-03-31 10:11:33 修改

阅读量1.6k

点赞数 21

分类专栏：阅读笔记文章标签：笔记

于 2024-03-02 15:42:38 首次发布

本文链接：https://blog.csdn.net/m0_57391408/article/details/136410454

版权

阅读笔记专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章探讨了如何通过量化、二值化和分层级联过滤来增强SIFT描述符的性能，以提高稳定性、鲁棒性和匹配效率。上下文匹配策略也被提出，以增强描述符的区分能力。实验表明，虽然传统的SIFT仍适用，但改进策略可进一步优化其在图像匹配领域的表现。

摘要由CSDN通过智能技术生成

1、文章综述

本文主要讲述了传统的SIFT算子的描述符目前应该还有什么样的手段去提升，从而使其具有更好的稳定性、鲁棒性、唯一性，能够更加高效的完成匹配任务，节省时间；文章中主要提出的方法有：量化、二值化和分层级联过滤，旨在减少数据存储并增加匹配效率，而不会显著损失准确性。此外，本文还讨论了一种基于对称变体的上下文匹配策略，该策略可以提高任何描述符的区分能力。同时本文对传统和改进的描述符进行了实验评估，实验证据表明，尽管SIFT等传统的描述子早已存在，但是通过提出的策略增强了SIFT和其他手工制作的描述符后，它们在当前的图像匹配领域仍然适用。

2、介绍

①本文根据从局部关键点补丁中提取描述符向量的过程，将局部描述符传统上分为手工制作和数据驱动[20]两种类型。

②广泛使用的尺度不变特征变换（SIFT）描述符[40]及其大量衍生物[3,9,19,22,26,31,48]的基本特性是梯度定向。相反，其他基于直方图的描述符则采用不同的方法，如像素排序[65]、哈氏小波[8]、高斯卷积[58]或其他核[50]以及二进制像素比较[28]。

③一方面，我们的研究结果表明，采用合适的量化方案，可以显著压缩 SIFT 和类似描述符的描述符长度和匹配时间。另一方面，我们还阐明了一种方法，可以通过精心设计的上下文匹配方法来增强任何描述符（无论是手工创建的还是数据驱动的）的判别能力。

④用 L1 距离代替 L2 距离，既能保持二进制描述符的计算效率，又能保持未量化描述符的高精度。

⑤相关术语：分成层级联滤波（HCF）、最近邻比（SNNR）

4、相关工作（量化）

①多年来，SIFT已经深入分析，并不断改进。引入了降维[26, 31]和替代匹配距离[3, 39]等技术，以增强可区分性。传统上，空间时间压缩问题通过数据驱动的技术来解决，例如降维[29, 31]、哈希[55]、二值化[4, 9, 20]和量化[17, 63, 67]。

②在最近的文献中，对于描述符向量量化的重要性有所低估，通常被视为仅仅是次要的优化技术细节。然而，合理地推测，实际应用的可扩展性和效率强烈依赖于量化，以降低匹配过程的计算复杂性，包括运行时间、存储需求和内存带宽。

③在匹配两个直方图时，欧几里得L2距离倾向于突出显示少数几个箱子上的大误差，而相对于大多数箱子上的小误差。这种行为可以通过采用直方图比较的替代距离来缓解，例如较低阶的曼哈顿L1距离 [9]或Hellinger距离（这个距离有篇核心论文就是使用这种方法进行改进的）[3]。

补充：
当用于衡量两个直方图之间的相似性时，可以使用曼哈顿(L1)距离或Hellinger距离。

曼哈顿(L1)距离：
曼哈顿距离是两个点在坐标系上的绝对轴距总和。在直方图上，曼哈顿距离是将两个直方图中对应箱子之间的差值的绝对值相加。数学上，对于两个直方图 ( H1 ) 和 ( H2 )，曼哈顿距离可以表示为：
Hellinger距离：
Hellinger距离是用来衡量两个概率分布之间的相似性的一种度量。在直方图上，Hellinger距离是通过计算两个直方图的平方根的差的平方和来衡量的。数学上，对于两个直方图 ( H_1 ) 和 ( H_2 )，Hellinger距离可以表示为：

其中，( n ) 是直方图的箱子数，( H1(i) ) 和 ( H2(i) ) 分别是两个直方图在第 ( i ) 个箱子中的值。

总的来说，曼哈顿距离和Hellinger距离都是常用的用于衡量直方图之间相似性的距离度量方法，可以在图像匹配等领域中用来评估描述子之间的相似程度。

④RootSIFT是SIFT的一种现代变体，首先通过L1范数对x进行归一化，然后提取每个yi的平方根。计算两个SIFT向量之间的Hellinger距离等效于计算对应RootSIFT向量之间的L2距离。这个处理方式跟那片核心论文的处理方式一样

⑤在量化过程中，本文展现出使用L1范式进行量化的结果要比使用L2范式量化的效果更好，但是这一块是公示的罗列，就是说使用这种公式量化出来可以得到比较好的效果，很抽象不是很理解，具体实现应该怎么做，总之这一块我们知道，对描述子方面的改进，我们可以从量化描述子所代表的直方图入手，通过不同的距离度量方式来提升描述子的响应稳定性。（对SIFT描述子进行量化。SIFT描述子通常是由128维的向量表示的，每个维度对应于一个特征。这些特征值通常是浮点数，需要较大的存储空间和计算资源来处理。通过量化，可以将每个特征值转换为更小的数据类型，例如将每个浮点数转换为整数或二进制数，以减少存储空间和计算需求。）

⑥通过这种量化的方式优化存储空间，从而提升匹配的效率。

5、二进制描述子

①二进制描述符被设计为在提取和匹配速度上都要快，并具有紧凑性，但以牺牲鲁棒性为代价。它们被定义为二进制值的串联，使用汉明距离进行匹配。描述符二进制值通常是从同一关键点补丁的区域之间的强度比较中获得的。

补充：
在这里，提到了一种名为梯度方向直方图的二值化（BIG-OH）的SIFT的二进制版本。这种方法将每个网格单元（即，SIFT描述符向量元素之间）的连续直方图箱之间的二进制比较串联起来。这样做的目的是将SIFT描述符向量中的浮点值转换为二进制值，以实现描述符的二值化。

与基于强度或梯度比较的方法不同，BIG-OH 直接作用于最终描述符，即直方图，并考虑了不同的补丁级别，从而提高了鲁棒性。与一些数据驱动型二进制描述符不同，这种方法不依赖于训练数据提供的描述符空间信息，而是通过对最终描述符进行操作来获得二进制表示。

通过这种方法，SIFT描述符可以以更紧凑的形式表示，并且可以使用汉明距离等简单的度量来进行快速的匹配。这种方法的优点在于它不仅具有较高的匹配速度，而且在一定程度上保留了SIFT描述符的鲁棒性。
具体如何二值化
为了将这些浮点值转换为二进制值，以实现描述符的二值化，可以采用一种称为梯度方向直方图的二值化（BIG-OH）的方法。在这个方法中，针对SIFT描述符向量中的每个网格单元（也就是每个直方图箱），会进行一系列的二进制比较操作。具体地说，对于连续的直方图箱，会比较它们的值，如果当前箱的值比相邻箱的值大，则相应位置的二进制值被设置为1，否则为0。这样，每个网格单元的直方图箱之间的二进制比较结果就被串联起来，形成了最终的二进制描述符。

6、上下文匹配（利用级联滤波）

利用级联滤波进行的描述子的改进以提升描述子匹配时的效率，这一部分所讲的都是怎么通过一定级联滤波的方式，一些数学运算方法来实现，这部分比较抽象，不容易理解，如果考虑改进的话这一部分不太好突出

7、描述符的比较评价（一些评价基准）

①场景内容、计算约束、匹配精度和应用任务都会影响描述符的选择。然而，在选择描述符时应该考虑的一个事实是，即使在评估基准或描述符实现中稍微有差异，有时也会导致性能结果不明确。

8、展望

未来的工作将解决深度描述符量化的问题，因为它在将任何描述符编码为uchar格式中起着关键作用，同时还考虑了最近的bfloat16半精度浮点格式。数据上下文的利用似乎是图像匹配未来研究的另一个有前途的方向。在GPU上进行描述符匹配已成为常规做法。然而，当前的实现仅限于使用L2距离匹配的浮点描述符。因此，未来调查的另一个主题将是设计算法，利用量化和L1距离以最大化带宽并加速计算。

9、思考

读完这篇文献，我认为主要想讲的就是如何设计SIFT描述子使其具有更高效的计算效率，文中提到了量化、转化为二进制、分层级连和利用上下文信息进行描述子的构建，比较了不同方法下构建描述子的【匹配效率，这篇文章包含大量数学知识，对我来说比较晦涩难懂。收获就是了解了如果SIFT描述子想要提高效率从哪几个方面入手，只能说是扩展了知识面，另外文中提到更好的利用上下文信息进行匹配也是一个比较重要的方向。