surf 原论文翻译

kui9702

于 2022-01-26 11:35:40 发布

阅读量1.2k

点赞数 2

分类专栏： # opencv 文章标签：计算机视觉深度学习人工智能

opencv 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

surf

surf论文翻译: 参考链接
：https://blog.csdn.net/lavender19/article/details/120747414

surf原论文：https://download.csdn.net/download/kui9702/77699132

SURF:加速鲁棒特征

概要：在本文中，我们提出了一种新型的描述和检测特征的算法，即 SURF（加速鲁棒特征）。SURF具有尺度和旋转不变性，在可重复性、独特性和鲁棒性方面接近甚至优于先前提出的方案SIFT，并且可以更快地计算和比较。

SURF通过依靠积分图像进行图像卷积来实现的；依靠构建检测和描述现有特征的优势（在这种情况下，使用基于 Hessian 矩阵的检测器度量和基于分布的描述符），通过简化这些方法，组合检测、描述和匹配等步骤。本文展现标准评估集的实验结果，以及在现实生活对象识别应用程序的上下文中获得的图像。从中可以看出SURF的强大之处。

1、介绍

发现同一场景或物体的两幅图像之间的对应关系是计算机视觉应用的其中一部分工作。相机校准、3D重建、图像配准和对象识别只是其中的一小部分。这项工作的目的：寻找离散图像对应关系。可以分为三个主要步骤：首先，在图像中不同的位置选择“兴趣点”，例如角、斑点和丁型交叉点。兴趣点检测器最有价值的特性是它的可重复性，即它能否在不同的观察条件下找到相同的兴趣点。然后，每个兴趣点的邻域用特征向量表示。该描述子是与众不同，同时对噪声、检测误差以及几何和光亮度变形具有鲁棒性。最后，在不同的图像之间匹配描述子的向量。匹配方式通常基于向量之间的距离，例如马氏距离或欧几里德距离。匹配特征的时间与描述符的维数直接相关，因此想要更快速地检测，则需要较少的维数。

我们的目标是提出一种在与最先进的技术相比，不牺牲性能且计算速度更快的检测器和描述子。为了取得成功并且保持其足够的独特性，需在以上条件取得平衡，包括降低描述子的维度和复杂性。

本文已经提出了各种各样的检测器和描述子。此外，还对基准数据集进行了详细的比较和评估。我们基于之前的工作经验，基于获得影响性能的因素，构建我们的快速检测器和描述子SURF。在我们对基准图像集和真实对象识别应用程序的实验中，得到的检测器和描述子不仅速度更快，独特性、重复性更强。

在处理局部特征时，需要解决的第一个问题是尺度和旋转不变性。显然，这取决于几何和光度变形，又取决于变化的观察条件。我们集中在尺度和图像旋转不变检测器和描述子。这在特征复杂性和常见变形之间提供了一个很好的平衡。倾斜、缩放和透视效果被假定为二阶效果，描述子的整体稳健性在一定程度上覆盖了这些效果。正如Lowe声称的那样，仿射不变特征的额外复杂性通常会对其鲁棒性产生负面影响，除非真正大的视点变化是可以预料的。在某些情况下，即使可以忽略旋转不变性，导致描述子只具有尺度不变性，我们称之为“垂直SURF”（U-SURF）。事实上，在很多应用中，比如移动机器人导航或视觉导游，相机通常只绕垂直轴旋转。在这种情况下，避免过度破坏旋转不变性的好处不仅是提高了速度，而且还提高了识别能力。关于光度变形，我们假设一个简单的线性模型，带有比例因子和偏移（偏差）的线性模型。请注意，我们的检测器和描述子不使用颜色信息。

本文的组织结构如下。第2节描述了相关的工作，我们的结果就是基于这些工作得出的。第3节描述了兴趣点检测方案。第4节介绍了新的描述符。最后，第5节给出了实验结果，第6节总结了本文。

2 相关工作

兴趣点检测器。最广泛使用的检测器可能是1988年基于二阶矩矩阵的特征值提出的哈里斯角点检测器。然而，哈里斯角点并不是尺度不变的。林德伯格介绍了自动比例选择的概念，可以检测图像中的兴趣点，每个兴趣点都有自己的特征尺度。他用Hessian矩阵的行列式和Laplacian（对应于Hessian矩阵的轨迹）来检测斑点状结构。Mikolajczyk和Schmid对该方法进行了改进，创建了具有高重复性和尺度不变特征检测器，他们创造了Harris-Laplace和Hessian-Laplace。他们使用（尺度适应的）哈里斯测度或海森矩阵的行列式来选择位置，

拉普拉斯选择比例。关注速度，Lowe通过高斯差分（DoG）滤波器近似高斯拉普拉斯（LoG）。

其他几种尺度不变的兴趣点检测器。例如，Kadir和Brady[13]提出的显著区域检测器可以最大化区域内的熵，Jurie等人[14]提出的基于边缘的区域检测器。但是它们的速度比较慢。此外，还提出了几种仿射不变特征检测器，可以处理较长时间的视点变化。然而，这些已经超出本文的范围。

通过对现有检测器的研究和已发表的比较[15,8]，我们可以得出以下结论：（1）基于Hessian的检测器比基于Harris的检测器更稳定、更可重复。使用Hessian矩阵的行列式而不是它的迹（拉普拉斯）似乎更有用，因为拉普拉斯对拉长的、局部性差的结构较差。此外，像高斯差分近似代替可以以较低的成本换来速度更快，精度更高。

特征描述子。提出了更多的特征描述子，如高斯导数、不变矩、复杂特征、可调滤波器、基于相位的局部特征，以及表示兴趣点邻域内小尺度特征分布的描述子。后者由Lowe提出，证明比其他更加优秀。这可以通过这样一个事实来解释，即它们捕获了大量关于空间强度模式的信息，同时对小变形或定位错误具有鲁棒性。[2]中的描述子简称SIFT，它计算兴趣点周围局部方向梯度的直方图，并将这些单元存储在128维向量中（每个4×4位置单元有8个方向单元）。

对这一基本方案提出了各种改进建议。Ke和Sukthankar将PCA应用于梯度图像。这种PCA-SIFT产生的36维描述符匹配速度很快，但在Mikolajczyk等人的第二次对比研究中证明，它不如SIFT明显，而较慢的特征计算会降低快速匹配的效果。在同一篇论文中，作者提出了一种称为GLOH的SIFT变体，它被证明在相同的维数下更加独特。然而，GLOH的计算成本更高。

SIFT似乎仍然是实际应用中最具吸引力的描述子，因此也是当今使用最广泛的描述子。它独特且相对快速，这对于在线应用至关重要。最近，Se等人[22]在现场可编程门阵列（FPGA）上实现了SIFT，并将其速度提高了一个数量级。然而，描述符的高维性是在匹配步骤进行SIFT的一个缺点。对于普通PC上的在线应用程序，三个步骤（检测、描述、匹配）中的每一步都应该更快。为了加快匹配步骤，Lowe提出了一种最佳bin-first备选方案[2]，但这会导致精度较低

在本文中，我们提出了一种新的检测器描述符方案，即SURF（加速鲁棒特征）。探测器基于Hessian矩阵，

但使用了一个非常基本的近似值，就像DoG是一个非常基本的基于拉普拉斯的检测器一样。它依靠积分图像来减少计算时间，因此我们称之为“快速海塞”检测器。另一方面，描述子描述了兴趣点邻域内Haar小波响应的分布。同样，我们利用积分图像来提高速度。此外，仅使用64维，减少了特征计算和匹配的时间，同时提高了鲁棒性。我们还提出了一种新的基于拉普拉斯符号的索引方法，不仅提高了匹配速度，还提高了描述子的鲁棒性。

为了使本文更加完整，我们简洁地讨论了[23]中定义的积分图像的概念。它们允许快速实现盒式卷积滤波器。在位置x=(x, y)T处的积分图像I∑(x)，表示输入图像I中，由原点和 x形成的矩形区域内的所有像素的总和。

积分图像计算完成后，需要三次加法运算来计算垂直矩形区域上的强度总和（见图1）。因此，计算时间与其大小无关。这在我们的方法中很重要，因为我们使用大的过滤器尺寸。

3.快速海塞矩阵

我们的检测器基于Hessian矩阵，因为它在计算时间和精度上都有很好的性能。然而，我们并没有使用不同的度量来选择位置和比例（就像在Hessian-Laplace检测器[11]中所做的那样），而是依赖于Hessian-Laplace检测器的行列式。给定图像I中的点x=（x，y），标度σ处的海森矩阵H（x，σ）inx定义如下

其中Lxx（x，σ）是高斯二阶导数的卷积∂2*g(σ)/∂x2，图像I位于点x，类似地，对于Lxy（x，σ）和lyy（x，σ）。高斯是尺度空间分析的最佳选择，如[24]所示。然而，在实践中，需要对高斯进行离散和裁剪（图1左半部分），即使使用高斯滤波器对结果图像进行子采样，仍然会出现混叠。此外，在1D情况下降低分辨率并不会出现新结构的特性，但不适用于相关2D情况[25]。所以在这方面，高斯分布的重要性似乎被高估了，在这里，我们测试了一个更简单的替代方案。由于高斯滤波器在任何情况下都是非理想的，并且鉴于Lowe在对数近似方面的成功，我们使用盒滤波器进一步推进了近似（图1右半）。这些近似的二阶高斯导数，可以使用积分图像快速计算，与大小无关。如结果部分所示，该性能与使用离散高斯和裁剪高斯的性能相当。

图1

图1中的9×9盒滤波器是σ=1.2的高斯二阶导数的近似值，代表我们的最低尺度（即最高空间分辨率）。我们用Dxx，Dyy，a和Dxy来表示我们的近似值

应用于矩形区域的计算效率保持简单，但我们需要进一步平衡Hessian行列式表达式中的相对权重，即|Lxy（1.2）| F | Dxx（9）| F / | Lxx（1.2）| F | Dxy（9）| F=0.912~0.9，其中| x | F是Frobenius范数。

此外，滤波器响应根据掩模尺寸进行标准化。这保证了任何过滤器尺寸的Frobenius范数不变

比例空间通常实现为图像金字塔。为了获得更高层次的金字塔，图像会反复使用高斯平滑，然后再进行子采样。由于使用了盒形滤波器和积分图像，我们不必迭代地将相同的滤波器应用于先前过滤层的输出，而是可以以完全相同的速度将任何大小的滤波器直接应用于原始图像，甚至并行应用（尽管这里不使用后者）。因此，通过放大滤波器大小而不是迭代地减小图像大小来分析尺度空间。上述9×9滤波器的输出被视为初始尺度层，我们将其称为尺度s=1.2（对应于σ=1.2的高斯导数）。考虑到积分图像的离散性和滤波器的具体结构，通过使用逐渐变大的掩模对图像进行滤波，可以获得以下几层。具体来说，这会导致大小为9×9、15×15、21×21、27×27等的滤波器。在更大的尺度下，连续滤波器大小之间的步长也应相应地缩放。因此，对于每一个新的倍频程，滤波器尺寸增加一倍（从6到12到24）。同时，提取兴趣点的采样间隔也可以加倍。

当我们的滤波器布局比例在缩放后保持不变时，近似的高斯导数会相应缩放。因此，例如，我们的27×27滤波器对应于σ=3×1.2=3.6=s。此外，由于我们的滤波器的Frobenius范数保持不变，它们已经被标度归一化[26]。

为了定位图像中的兴趣点，在3×3×3邻域中应用非最大值抑制。然后，使用Brown等人提出的方法，在尺度和图像空间中插值Hessian矩阵行列式的最大值。在我们的例子中，尺度空间插值尤其重要

每个八度音阶的前几层相对较大。图2（左）显示了使用我们的“快速黑森”检测器检测到的兴趣点的示例。

4 SURF 描述子

与其他描述符[8]相比，SIFT的良好性能更好。SIFT混合了粗略的局部信息和梯度相关特征的分布，产生了良好的区分能力，同时在规模或空间方面抵御了定位错误的影响。使用梯度的相对强度和方向可以减少光度变化的影响。

提出的SURF描述符基于类似的属性，其复杂性进一步降低。第一步包括根据兴趣点周围圆形区域的信息确定可再现的方向。然后，我们构造一个与选定方向对齐的正方形区域，并从中提取SURF描述符。现在依次解释这两个步骤。此外，我们还提出了我们的描述符（U-SURF）的直立版本，它对图像旋转没有不变性，因此计算速度更快，更适合相机或多或少保持水平的应用。

4.1定向任务

为了对旋转保持不变，我们为感兴趣的点确定了一个可复制的方向。为此，我们首先计算x和y方向上的Haar小波响应，如图2所示，这是在兴趣点周围半径为6s的圆形邻域中进行的，s是检测到兴趣点的尺度。此外，采样步长与尺度有关，并被选择为s.与其余部分保持一致，并且在当前尺度s下计算小波响应。因此，在高尺度下，小波的大小很大。因此，我们再次使用积分图像进行快速滤波。

只需要六次操作就可以完成计算任意比例下x或y方向的响应。小波的边长为4s

一旦计算出小波响应并以兴趣点为中心用高斯（σ=2s）加权，响应将在空间中表示为向量，水平响应强度沿横坐标，垂直响应强度沿纵坐标。通过计算覆盖π/3角的滑动方向窗口内所有响应的总和来估计主导方向。将窗口内的水平和垂直响应相加。这两个反应的总和将产生一个新的向量。这种向量的最长长度使其方向指向兴趣点。滑动窗口的大小是一个参数，这是通过实验选择的。小尺寸会激发单一主导小波响应，大的尺寸则倾向于产生矢量长度的最大值。两者都会导致感兴趣区域的方向不稳定。注意U-SURF跳过这一步

对于描述子的提取，第一步包括构建一个以兴趣点为中心的方形区域，并沿着上一节中选择的方向进行定向。对于直立版本，这种转换是不必要的。这扇窗户的大小是20秒。图2中示出了此类方形区域的示例。

该区域定期划分为较小的4×4平方子区域。这样可以保存重要的空间信息。对于每个子区域，我们在5×5个规则间隔的采样点上计算一些简单的特征。为了简单起见，我们将dx称为水平方向上的Haar小波响应，将dy称为垂直方向上的Haar小波响应（滤波器大小为2s）。”这里的“水平”和“垂直”是相对于选定的兴趣点方向定义的。为了增强对几何变形和定位误差的鲁棒性，首先使用以兴趣点为中心的高斯（σ=3.3s）对响应dx和dy进行加权。

然后，将每个子区域上的小波响应dx和dy相加，形成特征向量的第一组条目。为了引入有关强度变化极性的信息，我们还提取了响应的绝对值之和|dx |和|dy |。因此，每个子区域都有一个用于其基本强度结构v=（∑dx、∑dy、∑|dx|、∑|dy|）的四维描述符向量v。这将为长度为64的所有4×4子区域生成描述符向量。小波响应对照明偏差（偏移）是不变的。对比度不变性（比例因子）是通过将描述符转换为单位向量来实现的。

图3示出了子区域内三种截然不同的图像强度模式的描述子的特性。人们可以想象这种局部强度模式的组合，从而产生一个独特的描述符。

为了得到这些SURF描述子，我们尝试了越来越少的小波特征，使用d2x和d2y、高阶小波、PCA、中值、平均值等。

经过全面评估，所提出的这几组方案表现最好。然后我们改变样本点和子区域的数量。4×4分区方案效果最好。考虑更精细的细分似乎不太可靠，会过多地增加匹配时间。另一方面，具有3×3子区域的短描述符（SURF-36）的性能较差，但允许非常快速的匹配，与文献中的其他描述符相比仍然是相当可接受的。图4仅显示了其中的几个比较结果（SURF-128将在稍后进行解释）。

我们还测试了SURF描述子的另一个版本，它添加了两个类似的功能（SURF-128）。它再次使用与以前相同的总和，但现在将这些值进一步拆分。dx和| dx |之和分别计算为dy<0和dy≥ 0.类似地，dy和| dy |之和根据dx的符号进行分割，从而使特征数加倍。描述符更独特，计算速度也不慢，但由于其高维性，匹配速度较慢。

在图4中，对标准“涂鸦”场景的参数选择进行了比较，这是Mikolajczyk[8]评估集中所有场景中最具挑战性的，因为它包含平面外旋转、平面内旋转以及亮度变化。4×4子区域的扩展描述符（SURF-128）表现最佳。此外，SURF性能良好，处理速度更快。两者的表现都超过了现有的先进水平

为了在匹配阶段进行快速索引，将包含潜在兴趣点的拉普拉斯符号（即Hessian矩阵的轨迹）。通常，兴趣点位于blob类型的结构上。拉普拉斯符号将黑色背景上的明亮斑点与相反的情况区分开来。此功能不需要额外的计算成本，因为它已经在检测阶段进行了计算。在匹配阶段，我们只比较具有相同对比度的特征。因此，这种最小的信息允许更快的匹配，并略微提高性能。

首先，我们在一个标准的评估集上给出结果，包括检测器和描述符。接下来，我们将讨论在实际对象识别应用程序中获得的结果。比较中的所有检测器和描述子都基于作者的原始实现。

标准评估我们使用Mikolajczyk 3提供的图像序列和测试软件测试了检测器和描述符。这些是真实纹理和结构化场景的图像。由于空间限制，我们无法在所有序列上显示结果。对于检测器比较，我们选择了两种视点变化（涂鸦和墙壁）、一种缩放和旋转（船）和照明变化（鲁汶）（参见下面讨论的图6）。除Bark序列外，所有序列都显示了描述符评估（见图4和图7）。

对于探测器，我们使用重复性分数，如[9]所述。这表示在两幅图像中发现了多少检测到的兴趣点，相对于发现的最低兴趣点总数（其中只考虑在两幅图像中可见的图像部分）。

该检测器与Lowe[2]提出的高斯（DoG）检测器和Mikolajczyk[15]提出的Harris-和Hessian-Laplace检测器进行了比较。

平均而言，所有人的兴趣点检测器数量都非常相似。这适用于所有图像，包括对象识别实验中使用的数据库中的图像，示例见表1。可以看出，我们的“快速黑森”探测器比DoG快3倍多，比海塞拉普拉斯快5倍多。同时，我们的探测器对Wall序列的可重复率（图16底部）超过了其他检测器。。请注意，Graffiti和Wall序列包含平面外的旋转而导致仿射变形，但比较中的检测器仅对图像旋转和缩放保持不变。因此，这些变形必须通过特征的整体鲁棒性来解决。

使用召回率（1-精度）图评估描述符，如[4]和[8]所示。对于每个评估，我们使用序列的第一个和第四个图像，除了Graffiti和Wall序列，分别对应于30度和50度的视点变化。在图4和图7中，我们根据“快速海塞”检测器检测到的兴趣点，将SURF描述符与GLOH、SIFT和PCA-SIFT进行了比较。在几乎所有的比较中，SURF都优于其他描述符。在图4中，我们使用两种不同的匹配技术对结果进行了比较，一种基于相似性阈值，另一种基于最近邻比（有关这些技术的讨论，请参见[8]）。这对描述词的排名有影响，但SURF在这两种情况下表现最好。由于空间限制，图7中仅显示了基于相似性阈值的匹配结果，因为该技术更适合表示描述符在其特征空间中的分布[8]，并且更通用。

SURF描述子在系统性和显著性方面优于其他描述子，在相同精度水平下，有时召回率提高10%以上。同时，计算速度很快（见表2）。第4节中介绍的精确版本（SURF-128）显示出比常规SURF略好的结果，但匹配速度较慢，因此对于速度相关的应用程序不太有趣。

请注意，在整个论文中，包括物体识别实验，我们总是使用相同的参数和阈值集（见表1）。在标准的Linux PC（奔腾IV，3GHz）上对计时进行了评估。

物体识别我们还在实际应用中测试了新功能，旨在识别博物馆中的艺术品。该数据库由22个对象的216张图像组成。

测试集的图像（116张图像）是在联合国各种条件下拍摄的，包括极端照明变化、反射玻璃柜中的物体、视点变化、变焦、不同的相机质量等。此外，图像较小（320×240），因此由于许多细节丢失，对物体识别更具挑战性。

为了从数据库中识别对象，我们进行如下操作。通过匹配各自的兴趣点，将测试集中的图像与参考集中的所有图像进行比较。选择参考图像上显示的与测试图像匹配次数最多的对象作为识别对象。

匹配过程如下所示。通过计算描述符向量之间的欧氏距离，将测试图像中的兴趣点与参考图像中的兴趣点进行比较。如果匹配对的距离小于第二近邻距离的0.7倍，则会检测到匹配对。这是最近邻比率匹配策略[18,2,7]。显然，额外的几何约束可以减少假阳性匹配的影响，但这可以在任何匹配器上实现。出于比较的原因，这是没有道理的，因为这可能掩盖了基本方案的缺点。平均识别率反映了我们的绩效评估结果。识别率最高的是SURF-128，识别率为85.7%，其次是U-SURF（83.8%）和SURF（82.6%）。其他描述符分别达到78.3%（GLOH）、78.1%（SIFT）和72.3%（PCA-SIFT）。

我们提出了一种快速、高性能的兴趣点检测描述方案，该方案在速度和精度上都优于目前的技术水平。描述仿射不变区域的描述符易于扩展。未来的工作将旨在优化代码以提高速度。

kui9702

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
surf 原论文翻译

surfsurf论文翻译: 参考链接：https://blog.csdn.net/lavender19/article/details/120747414surf原论文：https://download.csdn.net/download/kui9702/77699132SURF:加速鲁棒特征概要：在本文中，我们提出了一种新型的描述和检测特征的算法，即 SURF（加速鲁棒特征）。SURF具有尺度和旋转不变性，在可重复性、独特性和鲁棒性方面接近甚至优于先前提出的方案SIFT，并且
复制链接

扫一扫