SIFT论文翻译

Abstract

本文提出了一种从图片中提取独特不变特征的方法,该方法可用于在对象或场景不同师徒之间执行可靠匹配。这些特征对于图像比例和旋转是不变的,并且被示为在大范围的仿射失真、3D视点变换、噪声的增加和光照的变化中提供鲁棒的匹配。这些特征非常独特,在某种意义上,单个特征可以与有许多图像的大型特征数据库高概率地正确匹配。本文还介绍了使用这些特征进行对象识别的方法。通过使用快速最近邻算法将各个特征与来自已知对象的特征数据库匹配,然后进行霍夫变换以识别属于单个对象的聚类,最后通过最小二乘解决方案对一致姿势参数进行验证来进行识别。这种识别方法可以稳健地识别杂波和遮挡中的对象,同时实现接近实时的性能。

1 Introduction

图像匹配是计算机视觉中许多问题的基本方面,包括对象或场景识别,从多个图像求解3D结构,立体对应和运动跟踪。本文介绍了具有许多属性的图像特征,这些属性使它们适合于匹配对象或场景的不同图像。这些特征对于图像缩放和旋转是不变的,并且对于光照和3D摄像机视点的改变部分不变。它们在空间和频率域都能很好地定位,降低了由于遮挡,杂波或噪声造成的破坏的可能性。可以使用有效的算法从典型图像中提取大量特征。此外,这些特征非常独特,允许单个特征与大型特征数据库的高概率地正确匹配,为对象和场景识别提供基础。

采用级联过滤方法可以最大限度地降低提取这些功能的成本,其中更耗时的操作仅应用于通过初始测试的位置。一下是用于生成图像特征集的主要计算阶段:

  1. 尺度空间极值检测:计算的第一阶段搜索所有尺度和图像位置。通过difference-of-Gaussian函数来有效的实现,以识别对于尺度和方向不变的潜在兴趣点。
  2. 关键点定位:在每个候选位置,一个详细模型用来确定位置和尺度。基于稳定性度量来选择关键点。
  3. 方向分配:基于局部图像梯度方向,为每个关键点位置分配一个或多个方向。所有未来操作都是对已经相对于每个特征的指定方向、尺度和位置进行了变化的图像数据执行的,从而为这些变化提供了不变性。
  4. 关键点描述:在每个关键点周围的区域中以选定的尺度测量局部图像梯度。这些被转换成表示允许显着的局部形状失真和光照变化的表示。

这种方法被称为尺度不变特征变化(SIFT),因为它将图像数据转换为相对局部特征的尺度不变坐标。

这种方法的一个重要方面是它可以生成大量的特征,这些特征可以在各种尺度和位置上密集的覆盖图像。尺度为500$\times$500像素的典型图像将产生大约2000个稳定的特征(尽管概述了取决于图像内容和各种参数的选择)。特征量对于对象识别尤其重要,其中在杂乱背景中检测小对象的能力要求从每个对象正确匹配至少3个特征以便可靠地识别。

对于图像匹配和识别,首先从一组参考图像中提取SIFT特征并将其存储在数据库中。通过单独地将来自新图像的每个特征与先前数据库进行比较并基于其特征向量的欧几里德距离找到候选匹配特征来匹配新图像。本文将讨论可以快速对大型数据库执行此计算的快速最近邻算法。

关键点描述符具有高度的独特性,允许单个特征在大型特征数据库中以良好的概率找到其正确的匹配。然而,在杂乱的图像中,背景中的许多特征在数据库中将没有任何正确匹配,除了正确的匹配之外还会产生许多错误匹配。通过识别关于对象及其在新图像中的位置、尺度和方向的一致的关键点的子集,可以从完整的匹配集中过滤正确的匹配。几个特征偶然就这些参数达成一致的概率远低于任何单个特征匹配错误的概率。通过使用广义Hough变换的有效散列表实现,可以快速地执行这些一致簇的确定。

然后,对于对象及其姿势达成一致的3个或更多个特征的每个聚类进行进一步的详细验证。首先,对对象姿势的仿射近似进行最小二乘估计。识别与该姿势一致的任何其他图像特征,并丢弃异常值。最后,给定拟合的准确性和可能的错误匹配的数量,对特定的一组特征指示对象的存在的概率进行详细计算。通过所有这些测试的对象匹配可以高可信度地识别为正确的。

2 Related research

利用一组局部兴趣点进行图像匹配的发展可以追溯到Moravec(1981)使用角点检测器进行立体匹配的工作。Harris和Stephens(1988)改进了Moravec探测器,使其在小图像变化和近边缘处更具可重复性。Harris还展示了其有效运动跟踪和运动恢复3D结构的价值(Harris,1992),Harris角点探测器已被广泛用于许多其他图像匹配任务。虽然这些特征检测器通常被称为角点检测器,但它们不仅选择角点,还选择在预定尺度的所有方向上具有大梯度的任何图像位置。

最初的应用是立体声和短程运动跟踪,但后来这种方法扩展到更难的问题。Zhang等人(1995)表明,通过在每个角落周围使用相关窗口来选择可能的匹配,可以在大图像范围内匹配Harris角。然后通过求解描述刚性场景的两个视图之间的几何约束的基本矩阵以及去除与多数解决方案不一致的匹配来移除异常值。同时,Torr(1995)开发了一种类似的方法用于远程运动匹配,其中几何约束用于去除在图像内移动的刚性物体的异常值。

Schmid和Mohr(1997)的突破性工作表明,不变的局部特征匹配可以扩展到一般图像识别问题,其中特征与大型图像数据库相匹配。他们还使用Harris角来选择兴趣点,但他们使用的是旋转不变的局部图像区域描述符,而不是与相关窗口匹配。这允许在两个图像之间的任意方向变化下匹配特征。此外,他们证明了通过识别匹配特征的一致聚类,多个特征匹配可以在遮挡和杂乱下实现一般识别。

Harris角点检测器对图像比例的变化非常敏感,因此它不能为匹配不同尺寸的图像提供良好的基础。作者(Lowe,1999)早期的工作扩展了局部特征方法以实现尺度不变性。这项工作还描述了一种新的局部描述符,它提供了更多与众不同的特征,同时对局部图像失真(如3D视点变化)不太敏感。本文提供了对此早期工作的更深入的开发和分析,同时还提出了稳定性和特征不变性方面的一些改进。

之前有大量关于识别在规模变化下稳定的表示的研究。该领域的一些首要工作是克劳利和帕克(1984),他们开发了一种能够识别尺度空间中的峰和脊并将它们连接成树状结构的表示。然后可以在具有任意比例变化的图像之间匹配树结构。Shokoufandeh,Marsic和Dickinson(1999)最近关于基于图的匹配的研究使用小波系数提供了更有特色的特征描述符。Lindeberg(1993,1994)深入研究了确定特征检测的适当和一致的尺度的问题。他将此描述为规模选择问题,我们在下面使用他的结果。

最近,关于将局部特征扩展到完全仿射变换的一系列令人印象深刻的工作(Baumberg,2000; Tuytelaars和Van Gool,2000; Mikolajczyk和Schmid,2002; Schaffalitzky和Zisserman,2002; Brown和Lowe,2002; )。这允许在正交3D投影的变化下对平面表面上的特征进行不变匹配,在大多数情况下通过在局部仿射帧中重新采样图像。然而,这些方法都没有完全仿射不变,因为它们以初始特征尺度和以非仿射不变方式选择的位置开始,因为探索完整的仿射空间的成本过高。仿射框架对噪声的敏感度也比尺度不变特征的敏感度高,因此在实践中,仿射特征具有比尺度不变特征更低的可重复性,除非仿射变化大于平面表面的约40度倾斜(Mikolajczyk,2002)。更广泛的仿射不变性对于许多应用可能并不重要,因为训练视图最好在视点中至少每30度旋转(意味着识别在最近的训练视图的15度内)以捕获3D对象的非平面变化和遮挡效果。

虽然本文中提出的方法不是完全仿射不变的,但是使用了一种不同的方法,其中局部描述符允许相对特征位置的显著位移在描述符中仅有很小的变化。这种方法不仅允许描述符在相当大的仿射失真范围内可靠地匹配,而且还使得特征对于非平面表面的3D视点的变化更加鲁棒。其他优点包括更有效的特征提取和识别大量特征的能力。另一方面,仿射不变性是在非常大的视图变化下匹配平面表面的有价值的特性,并且应该以有效和稳定的方式对这种与非平面3D视点不变性相结合的最佳方法进行进一步的研究。

已经提出许多其他特征类型用于识别,除了本文中描述的特征之外,还可以使用其中一些特征类型以在不同情况下提供进一步的匹配。一类特征是利用图像轮廓或区域边界的特征,这使得它们不太可能被对象边界附近的杂乱背景破坏。Matas等人(2002)已经证明,它们的最大稳定极值区域可以产生大量具有良好稳定性的匹配特征。Mikolajczyk等人(2003)开发了一种新的描述符,它使用局部边缘而忽略了不相关的邻近边缘,提供了即使在靠近背景杂波叠加的窄形状边界附近也能找到稳定特征的能力。Nelson和Selinger(1998)基于图像轮廓的分组显示了具有局部特征的良好结果。同样,Pope和Lowe(2000)使用了基于图像轮廓的分层分组的特征,这对于缺乏细节纹理的对象特别有用。

视觉识别研究的历史包含可用作特征测量的各种其他图像属性的工作。Carneiro和Jepson(2002)描述了基于相位的局部特征,它们代表了局部空间频率的相位而不是幅度,这可能提供改善的光照不变性。Schiele和Crowley(2000)提出使用多维直方图来总结图像区域内的测量分布。这种类型的特征对于识别具有可变形形状的纹理对象特别有用。Basri和Jacobs(1997)已经证明了提取局部区域边界以进行识别的价值。要合并的其他有用属性包括颜色、运动、图形-地面辨别,区域形状描述符和立体深度线索。局部特征方法可以很容易地结合新颖的特征类型,因为额外特征在提供正确匹配时有助于提高稳健性,但除了计算成本之外,其他方面几乎没有什么害处。因此,未来的系统可能会结合许多功能类型。

3 检测尺度空间极值

如引言中所述,我们将使用级联过滤方法检测关键点,该方法使用有效算法来识别候选位置,然后进一步详细检查。关键点检测的第一阶段是识别可以在同一对象的不同视图下重复分配的位置和比例。通过使用称为尺度空间的连续尺度函数(Witkin,1983),通过在所有可能尺度上搜索稳定特征,可以实现检测对图像尺度变化不变的位置。

Koenderink(1984)和Lindeberg(1994)已经证明,在各种合理的假设下,唯一可能的尺度空间核是高斯函数。因此,图像的尺度空间被定义为函数 L ( x , y , σ ) L(x, y, \sigma) L(x,y,σ),它是由可变尺度高斯 G ( x , y , σ ) G(x, y, \sigma) G(x,y,σ)与输入图像 I ( x , y ) I(x, y) I(x,y)的卷积产生的:
L ( x , y , σ ) = G ( x , y , σ ) ∗ I ( x , y ) L(x, y, \sigma) = G(x, y, \sigma) * I(x, y) L(x,y,σ)=G(x,y,σ)I(x,y)
其中 ∗ * 表示在 x x x y y y中的卷积操作,
G ( x , y , σ ) = 1 2 π σ 2 e − ( x 2 + y 2 ) / 2 σ 2 G(x, y, \sigma) = \frac{1}{2 \pi \sigma^2} e^{-(x^2 + y^2)/2\sigma^2} G(x,y,σ)=2πσ21e(x2+y2)/2σ2
为了有效地检测尺度空间中的稳定关键点位置,我们提出了(Lowe,1999)在与图像卷积的高斯差分函数 D ( x , y , σ ) D(x, y, \sigma) D(x,y,σ)中使用尺度空间极值,其可以从由常数乘法因子 k k k分隔的两个邻近尺度的差异计算得来:
(1) D ( x , y , σ ) = ( G ( x , y , k σ ) − G ( x , y , σ ) ) ∗ I ( x , y ) = L ( x , y , k σ ) − L ( x , y , σ ) \begin{aligned} D(x, y, \sigma) & = (G(x, y, k\sigma) - G(x, y, \sigma)) * I(x,y) \\ & = L(x, y, k\sigma) - L(x, y, \sigma) \end{aligned} \tag{1} D(x,y,σ)=(G(x,y,kσ)G(x,y,σ))I(x,y)=L(x,y,kσ)L(x,y,σ)(1)
选择此函数有很多原因。首先,这是一个计算特别高效的函数,由于平滑空间特征描述在任何情况下都需要计算平滑图像 L L L,而且可以通过简单的图像相减来计算 D D D.

此外,正如Lindeberg(1994)所研究的那样,高斯差分函数提供一个与尺度归一化的高斯拉普拉斯 σ 2 ∇ 2 G \sigma^2 \nabla^2 G σ22G的近似。Lindeberg表明,对于真正的尺度不变性,用 σ 2 \sigma^2 σ2来归一化拉普拉斯是必须的。在详细的实验比较中,Mikolajczyk(2002)发现,与一系列其他可能的图像函数(如梯度、Hessian、或者Harris角函数)相比, σ 2 ∇ 2 G \sigma^2 \nabla^2 G σ22G的最大值最小值产生稳定的图像特征。

可以通过热扩散函数(用 σ \sigma σ表示而不是更常见的 t = σ 2 t=\sigma^2 t=σ2)来理解 D D D σ 2 ∇ 2 G \sigma^2 \nabla^2 G σ22G的关系:
∂ G ∂ σ = σ ∇ 2 G \frac{\partial G}{\partial \sigma} = \sigma \nabla^2 G σG=σ2G
由此可见,我们可以使用 k σ k\sigma kσ σ \sigma σ附近尺度的差异,从 ∂ G / ∂ σ \partial G / \partial \sigma G/σ的有限差分近似计算出 ∇ 2 G \nabla^2 G 2G:
σ ∇ 2 G = ∂ G ∂ σ ≈ G ( x , y , k σ ) − G ( x , y , σ ) k σ − σ \sigma \nabla^2 G = \frac{\part

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值