SURF论文翻译版

最新推荐文章于 2024-09-13 13:13:43 发布

Seemplus

最新推荐文章于 2024-09-13 13:13:43 发布

阅读量1.6k

点赞数 3

分类专栏：文章翻译文章标签： python 人工智能深度学习

原文链接：https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdf

版权

文章翻译专栏收录该内容

2 篇文章

订阅专栏

论文原文：https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdf

摘要

本文提出了一种新的具有尺度和旋转不变性的检测器和描述子，称为SURF（加速的鲁棒特征）。SURF在可重复性、显著性和鲁棒性方面接近甚至优于先前提出的方案，并且计算和比较速度要快得多。

这是依靠整体图像的卷积来实现的；通过现有的检测器和描述子的优势（具体而言，就是基于Hessian矩阵的检测器和基于分布的描述子）；提取这些方法的本质后，构造了新的检测、描述和匹配步骤的组合。

本文详细描述了检测器和描述子，然后探讨重要参数的影响。最后，我们将介绍SURF在两个不同的，又具有挑战性的目标上的应用：作为图像配准特例的相机校准和目标识别。我们的实验强调了SURF在广泛的计算机视觉主题中的实用性。

关键词：兴趣点、局部特征、特征描述、相机校准、目标识别

1. 引言

在同一场景或物体的两幅图像之间寻找点的对应关系，是许多计算机视觉应用程序的一部分。图像配准、相机校准、目标识别和图像检索只是其中的一部分。

离散图像点对应的搜索可分为三个主要步骤。首先，在图像中的不同位置选择“兴趣点”，例如角点、斑点和T形交叉点。兴趣点检测器最有价值的特性是可重复性。重复性表示探测器在不同的观察条件下，寻找相同兴趣点的可靠性。然后，每个兴趣点的邻域用特征向量表示。该描述子必须是显著的，同时对噪声、检测位移以及几何和光度变形具有鲁棒性。最后，在不同的图像之间匹配描述子向量。匹配基于向量之间的距离，即马氏距离或欧氏距离。描述子的维数直接影响所需时间，对于快速的兴趣点匹配，需要有更小的维数。然而，低维特征向量通常没有高维特征向量那么显著。

我们的目标是提出一种与最先进的技术相比，不牺牲性能的情况下计算速度更快的检测器和描述子。为了取得成功，必须在上述要求之间取得平衡，例如简化检测方案，同时保持其准确性，以及减少描述子的大小，同时保持其足够的显著性。

文献中已经提出了各种各样的检测器和描述子。此外，还对基准数据集进行了详细的比较和评估。我们的快速检测器和描述子SURF（加速鲁棒特征）也有被介绍。它是在以前的工作中获得灵感创建的。在对基准数据集的实验中，SURF的检测器和描述子速度更快，而且检测器更具可重复性，描述子更具特色。

我们重点研究了尺度和平面内旋转不变的检测器和描述子。这给特征复杂性和常见变形的鲁棒性之间提供了一个很好的平衡。倾斜、各向异性缩放和透视效果被假定为二阶效果，描述子的整体稳健性在一定程度上覆盖了这些效果。请注意，可以使用椭圆的仿射归一化将描述子扩展到仿射不变区域（参见[31]），但这会影响计算时间，并且，扩展检测器不够直接。关于光度变形，我们假设了一个简单的，带有偏差（偏移）和对比度变化（比例因子）线性模型。检测器和描述子都不使用颜色信息。

在第3节中，我们描述了用于快速和鲁棒兴趣点的检测策略。在不同的尺度下对输入图像进行分析，以保证尺度变化的不变性。在第4节中，为检测到的兴趣点提供了旋转和缩放不变描述子。此外，本文还提出了一种基于兴趣点与其周围环境对比度的简单高效的第一行索引技术。

在第5节中，讨论了一些可用的参数及其影响，包括直立版本（对图像旋转没有不变性）的优势。我们还研究了SURF在两个重要应用场景中的性能。首先，我们考虑了图像配准的特殊情况，即三维重建的相机标定问题。其次，我们将探索SURF在目标识别实验中的应用。这两个应用程序都突出了SURF相对于其他策略在速度和稳定性方面的优势。本文包括六个章节。

2. 相关工作

2.1. 兴趣点检测

使用最广泛的检测器可能是1988年提出的哈里斯角点检测器[15]。它基于二阶矩阵的特征值。但是，Harris角点不是尺度不变的。Lindeberg[21]介绍了自动刻度选择的概念，可以检测图像中的兴趣点，每个兴趣点都有自己的特征尺度。Lindeberg用Hessian矩阵的行列式和Laplacian（对应于Hessian矩阵的轨迹）来检测blob结构。Mikolajczyk和Schmid[26]对该方法进行了改进，创建了具有高重复性的，鲁棒的和尺度不变特征检测器，他们创造了Harris-Laplace和Hessian-Laplace。他们使用了（尺度适应的）Harris检测器或Hessian矩阵的行列式选择位置，并使用拉普拉斯算子选择比例。针对速度问题，Lowe[23]提出通过高斯差分（DoG）滤波器来近似得到拉普拉斯高斯的结果（LoG）。

文中还举例了其他几种尺度不变的兴趣点检测器。例如，Kadir和Brady[17]提出的显著区域检测器可最大化区域内的熵，Jurie和Schmid[16]提出基于边缘的区域检测器。不过，它们速度较慢。此外，还有几种仿射不变特征检测器，可以处理更广泛的视点变化。但是，这些不属于本文的范围。

对现有检测器的研究和已发表的文章比较[29,30]，我们可以得出结论，基于Hessian的检测器比基于Harris的检测器更稳定和更有可重复性。此外，使用Hessian矩阵的行列式而不是它的轨迹（Laplacian）似乎是有利的，因为Laplacian对细长的、局部性差的结构效果较差。我们还观察到，DoG的近似值可以在较低成本的精度损失中提高速度。

2.2. 兴趣点描述子

更多种类的特征描述子被提出，如高斯导数[11]、不变矩[32]、复杂特征[1,36]、可调滤波器[12]、基于相位的局部特征[6]，以及表示兴趣点邻域内小尺度特征分布的描述子等。后者由Lowe[24]提出，其表现优于其他描述子[28]。这可以通过以下事实来解释：它们捕获了大量关于空间强度模式的信息，同时对小的变形或定位错误具有鲁棒性。[24]中的描述子简称为SIFT，计算兴趣点周围局部方向梯度的直方图，并将其存储在128维向量中（4×4个位置的存储单元中，每个存储单元有8个方向）。

人们对这一基本方案提出了各种改进。Ke和Sukthankar[18]在检测到的兴趣点周围的梯度图像上应用了PCA。这种PCA-SIFT产生了一个36维描述子，匹配速度很快，但Mikolajczyk在第二次比较研究中，证明了它不如SIFT的特征明显[30]；应用PCA会降低特征计算的速度。在同一篇论文[30]中，作者提出了一种称为GLOH的SIFT变体，它被证明在相同的维数下更加独特。然而，GLOH在计算上更昂贵，因为它再次使用PCA进行数据压缩。

SIFT描述子仍然是实际应用中最具吸引力的描述子，因此也是当今使用最广泛的描述子。它独特且相对快速，这对在线应用至关重要。最近，Se等人[37]在现场可编程门阵列（FPGA）上实现了SIFT，并将其速度提高了一个数量级。

同时，Grabner等人[14]也使用积分图像来近似计算SIFT。它们的检测步骤基于均值差（无插值），描述步骤基于积分直方图。它们实现了与我们相同的速度（尽管描述步骤的速度是恒定的），但与SIFT相比，质量降低了。通常，描述子的高维性是SIFT在匹配步骤中的一个缺点。对于仅依赖普通PC的在线应用程序，三个步骤（检测、描述、匹配）中的每一个都必须快速。

在加快匹配步骤方面，有许多工作可以完成。这些都只能获得近似匹配。方法包括Lowe提出的BBF算法[24]、balltrees算法[35]、词汇树[34]、位置敏感散列[9]或冗余位向量[13]。作为补充，我们建议使用Hessian矩阵的轨迹显著提高匹配速度。再加上描述子的低维性，任何匹配算法都会执行得更快。

3. 兴趣点检测

我们的兴趣点检测方法使用基本的Hessian矩阵近似值。Viola和Jones[41] 使用流行的积分图像，这大大减少了计算时间。正如Simard等人[38]提出的那样，积分图像适合于更一般的boxlets框架。

3.1. 整体图像

了使文章更加完整，我们简要地讨论积分图像的概念。它们使用箱型卷积滤波器进行快速计算。在位置 $x = (x,y)^T$ 处的积分图像 $I_{Σ(x)}$ ，表示输入图像 $I$ 中，由原点和 $x$ 形成的矩形区域内的所有像素的总和。
$I_{Σ(x)} = \sum_{i=0}^{i \le x} \sum_{j=0}^{j \le y} I(i,j)$
积分图像计算完成后，需要三次加法运算来计算垂直矩形区域上的强度总和（见图1）。因此，计算时间与其大小无关。这在我们的方法中很重要，因为我们使用大的过滤器尺寸。

3.2. 基于Hessian矩阵的兴趣点

我们的检测器基于Hessian矩阵，因为它具有良好的精度性能。更准确地说，我们在行列式在最大的位置处可以检测到blob结构。与Mikolajczyk和Schmid[26]的Hessian-Laplace检测器不同，我们依赖Hessian的行列式进行尺度选择，正如Lindeberg[21]所做的那样。

图1 使用积分图像，只需三次加法和四次内存访问即可计算任意大小矩形区域内的强度总和。

给定图像 $I$ 中的点 $x = （ x ， y ）$ ， $x$ 中尺度为 $σ$ 处的Hessian矩阵, $H （ x ， σ ）$ 定义如下

$\left[ \begin{matrix} L_{xx}(x,σ) &L_{xy}(x,σ) \\ L_{xy}(x,σ) & L_{yy}(x,σ) \end{matrix}\right]$

其中 $L_{xx} (x,σ)$ 是高斯二阶导数 $\frac{∂^2 g(σ)}{(∂x^2 )}$ 的卷积，图像 $I$ 位于点 $x$ ，类似于 $L_{xy} (x,σ)$ 和 $L_{yy} (x,σ)$ 。

高斯是尺度空间分析的最佳选择[19,20]，但在实践中，必须对其进行离散和裁剪（图2左半部分）。这导致图像围绕π/4的奇数倍旋转时,重复率的损失。基于Hessian的检测器一般有这个弱点。图3显示了基于Hessian矩阵的两个检测器在纯图像旋转时的重复率。重复率在π/2的倍数附近达到最大，这是由方形滤波器造成的。尽管如此，检测器仍然表现良好，而且性能的轻微下降并没有影响离散化和裁剪带来的快速卷积的优势。由于真实的滤波器在任何情况下都是非理想的，并且考虑到Lowe在LoG近似上的成功，我们用箱式滤波器（图2的右半部分）进一步推动了Hessian矩阵的近似值估计。这些近似的二阶高斯导数，可以以非常低的计算成本用积分图像进行评估。因此，计算时间与滤波器的尺寸无关。如结果部分和图3所示，其性能与离散化和裁剪过的高斯曲线相当甚至更好。

图2 从左到右：分别为y方向的（离散化和裁剪）的高斯二阶偏导数 $L_{yy})$ 和 $x y$ 方向的二阶偏导数 $L_{xy})$ ； $y$ 方向的二阶高斯偏导近似值 $D_{yy})$ 和 $x y$ 方向的 $D_{xy})$ 的二阶高斯偏导近似值。灰色区域等于零。

图2中的9×9箱式滤波器是σ=1.2的高斯滤波器的近似值,表示用于计算blob响应图的最低比例（即最高空间分辨率）。我们将用 $D_{xx}$ 、 $D_{yy}$ 和 $D_{xy}$ 来表示它们。为了提高计算效率，选择简单的权重应用于矩形区域。这就产生了

$del(H_{approx} )= D_{xx} D_{yy}-(wD_{xy})^2$

用滤波器响应的相对权重w平衡Hessian行列式的表达式。这是高斯核和近似高斯核之间能量守恒所需要的，

$\frac{|L_{xy} (1.2)|_F |D_{yy} (9)|_F}{|L_{yy} (1.2)|_F |D_{xy} (9)|_F }=0.912…≈0.9$

其中 $x|_F$ 是Frobenius准则。请注意，根据理论，权重根据比例而变化。在实践中，我们保持权重因子不变，因为这对我们实验的结果没有显著影响。

此外，过滤器响应根据其尺度进行归一化。这保证了任何过滤器的尺度都有一个恒定的Frobenius准则，这对下一节讨论的尺度空间分析是重要的。

Hessian的近似行列式表示位置x处图像中的blob响应。这些响应存储在不同尺度的blob响应图中，并检测局部最大值，如第3.4节所述。

图3 顶部：图像旋转高达180度的重复率。对于π/4周围的不均匀倍数的角度，在Hessian探测器上通常具有较低的重复率。底部：使用的梵高序列的样本图像。如第3.3节所述，Fast-Hessian是我们的检测器（FH-15）的更精确版本。

3.3. 尺度空间表示法

需要在不同的尺度上找到兴趣点，这主要是因为寻找对应关系常常需要在不同尺度上看到的图像中进行比较。尺度空间通常以图像金字塔的形式实现。图像被反复地用高斯平滑，然后进行子采样，以达到金字塔的更高层次。Lowe[24]减去这些金字塔层，以得到DoG（高斯之差）图像，其中可以找到边缘和斑点。

由于使用了箱式滤波器和积分图像，我们不必对先前过滤层的输出迭代应用相同的滤波器，而是可以以完全相同的速度直接在原始图像上应用任何尺度的箱式滤波器，甚至可以并行应用（尽管这里没有利用后者）。因此，是通过放大滤波器的尺度，而不是迭代地缩小图像尺寸来进行尺度空间的分析，如图4所示。上一节介绍的9×9滤波器的输出被认为是初始尺度层，我们将其称为尺度s=1.2（用σ=1.2的高斯导数近似）。考虑到积分图像的离散性和我们的过滤器的特定结构，下面的层是通过使用逐渐增大的掩模过滤图像得到的。

请注意，我们采用这种取样方式的主要动机是其计算效率。此外，由于我们不必对图像进行下采样，因此不存在锯齿。缺点是，箱式滤波器保留了高频成分。这些高频分量可能会在同一场景的缩小变体中丢失，这可能会限制尺度不变性。然而，这在我们的实验中并不明显。

图4 与其迭代地缩小图像尺寸（左），使用积分图像可以以恒定的成本扩大过滤器的规模（右）。

尺度空间被划分为八度。一个八度代表了一系列的滤波响应图，这些滤波响应图是通过将相同的输入图像与一个越来越大的滤波器进行卷积而得到的。总的来说，一个八度空间包含了一个2的比例系数（这意味着我们需要把滤波器的大小增加一倍以上，见下文）。每个倍频程被细分为恒定数量的缩放级别。由于积分图像的离散性，两个后续尺度之间的最小尺度差取决于导数方向（x或y）的部分二阶导数的正叶或负叶的长度 $l_0$ ，它被设定为滤波器尺寸长度的三分之一。对于9×9的滤波器， $l_0$ 长度是3。对于连续的两级，我们必须将这个尺度至少增加2个像素（每边一个像素），以保持尺度的不均匀，从而确保中心像素的存在。这导致掩模尺度总共增加了6个像素（见图5）。请注意，对于不同于 $l_0$ 的尺寸（例如图5中垂直滤波器的中央带的宽度），重新缩放掩模会引入舍入误差。然而，由于这些误差通常比 $l_0$ 小得多，因此这是一个可以接受的近似值。

图5 两个连续比例级别（9×9和15×15）的滤波器D_yy（顶部）和D_xy（底部）。为了保证中心像素的存在，暗叶的长度只能增加偶数个像素（顶部）。

尺度空间的构建从9×9的滤波器开始，它计算了最小尺度的图像的blob响应。然后，应用尺寸为15×15、21×21和27×27的滤波器，通过这些滤波器甚至实现了超过2的比例变化。但这是必要的，因为在空间上和相邻的尺度上都应用了三维非极大值抑制。因此，堆栈中的第一个和最后一个Hessian响应映射本身不能包含这样的最大值，因为它们只用于比较。因此，在插值之后，见第3.4节，最小的尺度可能是 $σ=1.6=1.2\frac{12}{9}$ ，相当于尺度为12×12滤波器，最大的是 $σ=3.2=1.2\frac{24}{9}$ . 有关更多的细节，我们参考[2]。

其他的倍频程也有类似的考虑。对于每一个新的八度，滤波器的尺度都会增加一倍（从6到12到24到48）。同时，对于每一个新的倍频程，提取兴趣点的采样间隔也可以增加一倍。这就减少了计算时间，而精度上的损失与传统方法的图像子采样相当。第二个倍频程的过滤器大小为15、27、39、51。第三个倍频是用滤波器尺度27、51、75、99计算的，如果原始图像的尺度仍然大于相应的滤波器尺度，则使用滤波器尺寸51、99、147、195对第四个倍频进行尺度空间分析。图6给出了前三个倍频的滤波器尺度的概况。请注意，可以分析更多的倍频程，但每个倍频检测到的兴趣点的数量下降得非常快，参见图7。

大尺度的变化，尤其是在这些八度内的第一个滤波器之间（从9到15是1.7的变化），使得尺度的采样相当粗糙。因此，我们还实现了有更精细的尺度采样的尺度空间。首先使用线性插值将图像的大小翻倍，然后用大小为15的滤波器进行滤波来开始第一个倍频程。额外的过滤器大小为21、27、33和39。然后从第二个倍频程开始，再次使用现在将其大小增加12像素的滤波器，之后是第三个和第四个倍频程。现在，前两个滤波器之间的比例变化只有1.4（21/15）。通过二次插值可以检测到的准确版本的最低比例是
$\frac{18}{9})/2=1.2$ 。

图6 三个不同倍频程滤波器边长的图形表示。对数横轴表示刻度。请注意，为了无缝覆盖所有可能的尺度，这些八度是重叠的

由于我们的滤波器在任何尺度下的Frobenius准则都保持不变，它们已经被尺度归一化了，因此不需要再对滤波器的响应进行加权，见[22]。

3.4. 兴趣点定位

为了定位图像中的兴趣点，在3×3×3的邻域内进行非极大值抑制。具体来说，我们使用Neubeck和Van Gool[33]介绍的一个快速变体。然后用Brown等人[5]提出的方法在尺度和图像空间中，对Hessian矩阵的行列式的最大值进行内插。

在我们的例子中，尺度空间插值特别重要，因为每个倍频程的第一层之间的尺度差异相对较大。图8显示了使用我们的“快速Hessian”检测器检测到的兴趣点的示例。

图7 检测尺度的直方图，每倍频程检测到的兴趣点数量会迅速衰减。

图8 检测到的向日葵田的兴趣点。这类场景显示了使用基于Hessian的检测器获得的特征的性质。

4. 兴趣点描述与匹配

我们的描述子描述了兴趣点邻域内的强度内容的分布，类似于SIFT[24]及其变体所提取的梯度信息。我们建立在X和Y方向，而不是梯度分布上的一阶Haar小波响应，利用积分图像来提高速度，并且只使用64维。这减少了特征计算和匹配的时间，并已证明同时提高了鲁棒性。此外，我们提出了一个新的基于拉普拉斯符号的索引步骤，这不仅提高了描述子的鲁棒性，也提高了匹配速度（在最佳情况下提高了2倍）。我们将我们的检测器-描述子方案称为SURF–加速的鲁棒性特征。

第一步包括根据兴趣点周围的圆形区域的信息，固定一个可重复的方向。然后，我们构建一个与所选方向一致的方形区域，并从中提取SURF描述子。最后，在两幅图像之间进行特征匹配。这三个步骤将在下文中解释。

4.1. 定向任务

为了不受图像旋转的影响，我们为兴趣点确定一个可重复的方向。为此，我们首先计算兴趣点周围半径为6s圆形邻域内，x和y方向的，Haar小波响应，s是检测兴趣点的尺度。采样步骤取决于尺度s，与其他部分一样，小波的大小也与尺度有关，并设置边长为4s。因此，我们可以再次使用积分图像进行快速过滤。所用的滤波器如图9所示。在任意尺度下，只需要六次操作就可以计算出x或y方向的响应。

图9 Haar小波滤波器用于计算x（左）和y（右）方向的响应。深色部分的权重为−1，浅色部分权重为1。

一旦计算出小波响应并以兴趣点为中心用高斯（σ=2s）加权，响应就表示为空间中的点，水平响应强度沿横轴，垂直响应强度沿纵轴。通过计算π/3大小的滑动方向窗口内所有反应的总和来估计主导方向，见图10。窗口内的水平和垂直响应相加，得到一个局部方向矢量。所有窗口中最长矢量定义了兴趣点的方向。滑动窗口的大小是一个必须谨慎选择的参数。小的尺寸会对单一的主导梯度产生影响，大的尺寸则倾向于产生矢量长度的最大值，而这些最大值并不明显。这两种情况都会导致兴趣点的定位错误。

图10

图10 方向分配：大小为π/3的滑动方向窗口，检测兴趣点周围圆形邻域内，每个采样点处高斯加权Haar小波响应的主方向。

注意，对于许多应用，旋转不变性是不必要的。在[3,4]中可以找到使用直立版的SURF（简称U-SURF）进行目标检测的实验。U-SURF计算速度更快，.并且可以提高区分度，同时对旋转的鲁棒性保持在+/-15°左右。

4.2. 基于Haar小波响应和的描述子

对于描述子的提取，第一步包括构建一个以兴趣点为中心的方形区域，并沿上一节中选择的方向定向。这个窗口的大小为20s。图11显示了这种方形区域的例子。

图11
该区域被有规律地分割成较小的4×4方形子区域。这保留了重要的空间信息。对于每个子区域，我们在5×5个规则间隔的采样点上计算Haar小波响应。为了简单起见，我们把水平方向的Haar小波响应称为 $d_x$ ，垂直方向的Haar小波响应称为 $d_y$ （滤波器大小为2s），再看图9。这里的“水平”和“垂直”是相对于所选兴趣点方向定义的（见图12）。为了提高对几何变形和定位错误的鲁棒性，首先使用以兴趣点为中心的高斯（σ=3.3s）对响应 $d_x$ 和 $d_y$ 进行加权。

图12
图12。为了构建描述子，在兴趣点（左）上放置一个具有4×4平方子区域的定向二次网格。对于每个方格，计算小波响应。每个方格的2×2子划分对应于描述子的实际字段。这些是相对于网格方向（右侧）计算的 $d x$ 、 $∣ d x ∣$ 、 $d y$ 和 $∣ d y ∣$ 之和。

然后，将每个子区域上的小波响应d_x和d_y相加，形成特征向量中的第一组条目。为了引入有关强度变化极性的信息，我们还提取了响应的绝对值之和, $∣ d x ∣$ 和 $∣ d y ∣$ 。因此，每个子区域都有一个四维描述器向量v，用于描述其基本强度结构 $v = (∑d_x ,∑d_y ,∑|d_x | ,∑|d_y | )$ 。对所有4×4的子区域进行串联，会得到一个长度为64的描述子向量。小波响应对光照偏差（偏移）是不变的。对比度不变性（比例因子）是通过将描述子转换为单位向量来实现的。

图13
图13 一个子区域的描述子条目代表了基本强度模式的性质。左图：在同质区域的情况下，所有数值都相对较低。中间：在x方向存在频率的情况下， $d_x |$ 的值很高，但其他值仍然很低。如果强度沿x方向逐渐增加， $d_x |$ 和 $d_x$ 的值都很高。

图13显示了一个子区域内，三种截然不同的图像强度模式的描述子属性。我们可以想象这种局部强度模式的组合，从而形成一个独特的描述子。
在某种程度上，SURF的概念与SIFT相似，因为它们都关注梯度信息的空间分布。然而，如第5节所示，SURF实际上在所有情况下都优于SIFT。我们认为这是由于SURF整合了子斑块中的梯度信息，而SIFT则取决于单个梯度的方向。这使得SURF对噪声不太敏感，如图14的例子所示。

图14
图14 由于SURF描述子的全局整合，它比局部操作的SIFT描述子对各种图像扰动保持着更强的稳定性。

为了得到这些SURF描述子，我们试验使用更少或更多的小波特征、二阶导数、高阶小波、PCA、中值、平均值等。经过全面的评估，所提出的这几组方案表现最好。然后，我们改变了样本点和子区域的数量。4×4的子区域划分方案提供了最好的结果，另见第5节。考虑更精细的分区似乎不那么稳健，而且会增加太多的匹配时间。另一方面，3×3子区域的短描述子（SURF-36）的表现稍差，但可以实现非常快速的匹配，与文献中的其他描述子相比，仍然可以接受。

我们还测试了另一个版本的SURF描述子（SURF-128），它增加了一些类似的功能。它使用与之前相同的总和，但现在将这些值进一步拆分。在d_y<0和 $d_y≥0$ 的情况下分别计算 $d x$ 和 $∣ d x ∣$ 的总和。同样， $d_y$ 和 $d_y |$ 的总和根据 $d_x$ 的符号分割，从而使特征的数量加倍。该描述子更独特，计算速度也不慢，但由于其高维性，匹配速度较慢。

4.3. 匹配的快速索引

为了在匹配阶段实现快速索引，需要包含潜在兴趣点的拉普拉斯算子（即Hessian矩阵的轨迹）。通常，兴趣点位于blob类型的结构上。拉普拉斯算子将深色背景上的明亮斑点与相反情况区分开来。此功能不需要额外的计算成本，因为它已在检测阶段计算过。在匹配阶段，我们只比较具有相同对比度的特征，见图15。因此，这种最小的信息允许更快的匹配，而不会降低描述子的性能。请注意，这对于更高级的索引方法也有好处。例如。对于k-d树，此额外信息定义了用于分割数据的有意义超平面，而不是随机选择元素或使用特征统计。

图15

5. 结果

下面给出了模拟结果和真实结果。首先，我们评估了一些参数设置的效果，并基于标准评估集展示了检测器和描述子的总体性能。

表1 在我们的比较中，检测器的阈值、检测点数量和计算时间。（Graffiti的第一张图片，800×640）

然后，我们描述了两种可能的应用。关于与其他检测器和描述子的详细比较研究，请参考[4]。SURF已经在一些现实世界的应用程序中进行了测试。对于目标检测，其性能如[3]所示。Cattin等人[7]使用SURF拼接人类视网膜图像，这是其他检测器/描述子方案无法完成的任务。将此应用程序进一步应用于图像配准，我们将在本文中重点讨论更困难的相机标定和三维重建问题，也适用于宽基线情况。SURF即使在有挑战性的情况下也能可靠、准确地校准相机。最后，我们研究了SURF在目标识别中的应用。

5.1. 实验评估和参数设置

我们使用Mikolajczyk提供的图像序列和测试软件测试了我们的检测器。评价标准为重复率。
测试序列包括真实纹理和结构化场景的图像。有不同类型的几何变换和光照变换，如更改视点、缩放和旋转、图像模糊、灯光更改和JPEG压缩。
在本文展示的所有实验中，都是在标准PC Pentium IV上计时的，运行频率为3 GHz。

5.1.1. SURF 检测器

根据初始高斯导数滤波器的大小，我们测试了两种版本的Fast-Hessian检测器。FH-9代表我们的快速Hessian检测器，初始滤波器尺寸为9×9，FH-15是双倍输入图像尺寸的15×15滤波器。除此之外，对于本节中显示的所有实验，使用了相同的阈值和参数。

该检测器与Lowe[24]提出的高斯（DoG）检测器和Mikolajczyk[29]提出的Harris-Laplace和Hessian-Laplace检测器进行了比较。所有检测器的平均兴趣点数量非常相似（示例见表1）。阈值根据DoG检测器发现的兴趣点的数量进行调整。

FH-9检探测器比DoG速度快五倍，比Hessian-Laplace快十倍。FH-15检测器比DoG快三倍，比Hessian-Laplace快四倍（另见表1）。同时，我们的检测器的重复率与这些检测器相当，甚至更好。

Graffiti的重复率（图16顶部）对所有检测器来说都是可比的。FH-15检测器对Wall序列的可重复率（图16底部）超过了其他检测器。请注意，Graffiti和Wall序列包含平面外的旋转而导致仿射变形，但比较中的检测器仅对图像旋转和缩放保持不变。因此，这些变形必须由特征的整体鲁棒性来解释。在Boat序列中（图17顶部），FH-15检测器再次显示出比其他检测器更好的性能。在Bikes序列中，FH-9和FH-15检测器的表现优于其他检测器（图17底部）。我们会在5.2和5.3节中进一步强调检测器的优越性和准确性。

图16
图16 （视点更改下）Graffiti（顶部）和Wall（底部）序列的重复率。

图17
图17 （比例变化、图像模糊下）Boat（顶部）和Bikes（底部）序列的重复率。

5.1.2. SURF 描述子

在这里，我们重点讨论了SURF描述子提供的两个选项及其对查全率/查准率的影响。

首先，图12中方形网格的划分数量，也就是描述子的大小，对匹配速度有很大影响。其次，我们考虑上文所述的扩展描述子。图18根据方形网格的边长绘制了标准描述子和扩展描述子的召回率和精度。只有分割的数量是不同的，而不是父方格的实际大小。SURF-36指的是3×3的网格，SURF-72表示扩展的网格。同样，SURF-100指的是5×5，SURF-144指的是6×6，而SURF-200和SURF-288是其扩展版本。为了得到多个图像的平均数（我们从每组测试图像中选择一对），使用了比率匹配方案[24]。

显然，在这两种情况下，大小为4×4的方格在召回率和精确度方面都表现最好。尽管如此，在匹配速度非常重要的情况下，3×3也是一种可行的选择。通过进一步的分析，我们发现扩展描述子在召回率方面有所损失，但显示出更好的精确度。总的来说，扩展版本的影响很小。

图18
图18 方形网格边长变化时最近邻比匹配的召回精度。4×4的方格可获得最大值。这些数字是Mikolajczyk数据库中8个图像对的平均数。顶部：标准描述子，底部：扩展描述子。

与其他描述子的广泛比较可以在[4]中找到。在此，我们只展示了与其他两个著名描述方案（SIFT[24]和GLOH[30]）的比较，同样是测试序列的平均值（图19）。SURF-64被证明性能最好
SURF的另一个主要优点是其计算时间较低：检测和描述1529个兴趣点需要约610毫秒，直立版U-SURF仅需400毫秒。（第一张Graffiti；奔腾4，3 GHz）

5.3. 三维应用

在本节中，我们将评估Fast-Hessian检测器在相机自校准和三维重建应用中的精度。第一次评估比较了两种视图下，不同的最新兴趣点检测器。已知场景用于提供一些定量结果。第二个评估考虑了N个视图情况下的相机自校准和多幅图像的密集三维重建，其中一些图像是在宽基线条件下拍摄的。

图19

图19 在SURF关键点上评估不同描述方案的近邻比例匹配的召回精度。这些数字是Mikolajczyk数据库中8个图像对的平均值。

5.2.1. 两种视图

为了评估不同兴趣点检测方案在相机校准和三维重建方面的性能，我们创造了一个受控环境。这种评估很好的一个场景是两个高纹理的平面形成一个直角（在我们的例子中测量为88.6°），见图20。图像的大小为800×600。主点和长宽比是已知的。由于正确匹配的数量是影响精度的重要因素，我们调整了兴趣点检测器的参数，以便在匹配后留下800个正确的匹配（不属于该角度的匹配被过滤掉）。SURF-128描述子被用于匹配步骤。使用RANSAC评估两个平面的位置，然后进行正交回归。评价标准是两个平面之间的角度，以及不同兴趣点检测器重建的三维点与各自平面的平均距离和方差。

表2显示了我们的两个版本的Fast-Hessian检测器（FH-9和FH-15）、SIFT的DoG特征[24]以及Mikolajczyk和Schmid[29]提出的Hessian-Laplace和Harris-Laplace检测器的这些定量结果。FH-15检测器的性能明显优于其他检测器。

图21显示了重建角度的Fast-Hessian（FH-15）特征的正交投影。有趣的是，理论上基础较好的方法，如Harris-Laplace和Hessian-Laplace检测器，其性能比近似方法（DoG和SURF特征）差。

5.2.2. N种视图

SURF检测和描述算法已经与鲁汶大学VISICS研究小组的Epoch 3D网络服务整合。该网络服务允许用户将静态图像序列上传到服务器。在那里，摄像机和密集深度图的校准只用这些图像就能自动计算出来[40]。在相机标定阶段，需要在图像之间提取和匹配特征。对于许多上传的图像集，特别是当图像的拍摄距离较远时，使用SURF功能改进了这一步骤的结果。之前使用Harris角点和图像窗口归一化的交叉相关的程序，在匹配这种宽基线图像时存在问题。此外，DoG检测器结合SIFT描述在一些图像序列上失败了，而SURF成功地校准了所有相机。

图20

图20 为定量检测器评估输入图像。这是比较不同类型兴趣点检测器的一个很好的场景选择，因为其组件是简单的几何元素。

图21

对于图22中的示例，传统方法只能校准13个摄像头中的6个。然而，使用SURF，所有13台摄像机都可以校准。即使在稀疏的3D模型中，花瓶也很容易识别。

图23显示了一个典型的宽基线问题：三幅图像，取自不同的、相距甚远的视角。这是一个具有挑战性的例子，因为三幅图像代表了，精确密集三维重建所需的绝对最少图像数。获得的三维模型如图23（底部）所示。一般来说，相机校准的质量最好是基于所产生的密集模型的质量来评价的。这些实验证实了SURF检测器/描述子对在图像配准、相机标定和三维重建中的应用，其中对应关系的准确性至关重要。

表2 比较不同兴趣点检测器在相机标定和三维重建中的应用。实际角度是88.6°

图22
图22 使用KU-Leuven的3D网络服务进行3D重建。左图：用于相机校准的13张输入图像之一。右图。重建的摄像机的位置和花瓶的稀疏三维模型。

5.3. 在目标识别中的应用

Bay等人[3]已经证明了SURF在简单的目标检测任务中的作用。为了进一步说明在这种情况下描述子的质量，我们提出了一些进一步的实验。其基础是两个词包分类器的公开实现[10]。给定一个图像，任务是识别图像中是否有物体。为了进行比较，我们考虑了NaiveBayes分类器，正如Dance等人[8]所建议的那样，它直接作用于单包表示。选择这个简单的分类器是因为像pLSA这样更复杂的方法可能会冲淡描述子的实际效果。与[10]类似，我们对来自加州理工学院背景和飞机数据集的400幅图像进行了测试。50%的图像用于训练，另50%用于测试。为了尽量减少分区的影响，为所有描述子选择相同的训练集和测试集随机排列。虽然这对一般的目标识别来说是一个相当简单的测试集，但它绝对可以达到比较实际描述子性能的目的。

该框架已经提供了兴趣点，沿着Canny边缘随机选择，以创建一个非常密集的采样。然后，这些兴趣点被送入各种描述子中。此外，我们还考虑使用SURF关键点，使用较低的阈值，确保良好的覆盖率。

图24显示了获得的SURF-128、SIFT和GLOH的ROC曲线。请注意，在计算SURF时，拉普拉斯算子被从描述子中移除。对于这两种类型的兴趣点，SURF-128在大部分的曲线上都明显优于其他检测器。图25研究了索引大小和SURF的扩展描述子的影响。可以看出，SURF-128和SURF-64对垂直对应物性能最佳。这是有道理的，因为数据库中的所有图像基本上都是以直立的姿势拍摄的。其他替代方案的表现只是稍差，但也不相上下。甚至SURF-36也表现出类似的辨别能力，并且由于其描述子较小，为识别系统的各个部分提供了加速。

图23
图23 使用KU-Leuven的3D 网络服务进行3D重建。顶行：威尼斯圣马可大教堂细节的3幅输入图像。中间行：纹理密集重建的样本。底行：无纹理密集重建。密集三维模型的质量直接反映了相机标定的质量。这些照片是由毛里齐奥·福特（Maurizio Forte，CNR-ITABC，罗马）拍摄的。

对加州理工学院的摩托车（侧面）和人脸数据集也进行了同样的测试，得到了类似的结果。

总之，SURF对于分类任务来说非常有用，在测试集上比其他检测器表现得更好，同时计算速度也更快。这些好的结果表明，SURF应该非常适合用于目标检测，目标识别或图像检索任务。

图24

图24 在处理一个词包表示中，对朴素贝叶斯分类器的不同描述子策略进行比较。顶部：根据随机边缘像素评估的描述子。底部：在SURF关键点上评估的描述子。
.

6. 结论与展望

我们提出了一个快速和高性能的尺度和旋转不变的兴趣点检测器和描述子。由于使用了积分图像速度得到了提升，这大大减少了简单箱体卷积的运算数量，并且与所选择的尺度无关。结果表明，我们的Hessian近似的性能与先进的兴趣点检测器相当，有时甚至更好。高重复性有利于相机自校准，准确的兴趣点检测直接影响相机自校准的精度，从而影响到所产生的三维模型的质量。

然而，最重要的改进是检测器的速度。即使没有任何专门的优化，也可以在不损失性能的情况下进行几乎实时的计算，这是许多在线计算机视觉应用的一个重要优势。

我们的描述子，基于Haar小波成分的总和，优于最先进的方法。与基于直方图的方法相比，对基本图像强度模式性质的描述似乎更为独特。简单性和对整体图像的使用使我们的描述子在速度上具有竞争力。此外，基于拉普拉斯的索引策略使匹配步骤更快，而在性能上没有任何损失。

图25
图25 对在词包表示法上的，朴素贝叶斯分类器的SURF描述子的不同选择进行比较。根据SURF关键点评估描述子。顶部：标准，底部：扩展描述子。