SIFT经典论文翻译版

SIFT原文:https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf

摘要

本文提出了一种从图像中提取独特不变特征的方法,该方法可用于在不同视图之间物体或场景的可靠匹配。图像的缩放和旋转时,这些特征是不变的,并且在相当大范围的仿射失真、3D视点的变化、噪声的增加和光照的变化中提供鲁棒的匹配。这些特征是非常独特的,从某种意义上说,单个特征与有许多图像特征的大型数据库可以高概率地正确匹配。本文还描述了一种利用这些不变特征进行目标识别的方法。识别过程使用快速最近邻算法,将单个特征与已知目标的特征数据库进行匹配,接着进行霍夫变换识别属于单个目标的聚类,最后通过最小二乘法验证一致的姿态参数。这种识别方法可以在杂波和遮挡中稳健地识别目标,同时获得接近实时的性能。

1. 引言

图像匹配是计算机视觉中许多问题的一个基本问题,包括目标或场景识别,从多幅图像中求解三维结构,立体对应和运动跟踪。本文描述了具有许多属性的图像特征,这些属性使这些特征适合匹配不同图像中的目标或场景。图像缩放和旋转时,这些特征是不变的,光照和3D视点的变化时,这些特征是部分不变的。它们在空间域和频率域都有很好的定位,减少了遮挡、杂波或噪声破坏的可能性。利用高效算法可以从典型图像中提取大量特征。此外,这些特征非常独特,这使得单个特征能够与大型特征数据库高概率地正确匹配,从而为目标和场景识别提供了基础。

通过采用级联滤波方法可以使提取这些特征的成本最小化,在级联滤波方法中,更繁复的操作仅被应用于确定初始测试的位置。以下是生成图像特征集的主要计算阶段:

  1. 尺度空间极值检测:计算的第一阶段,搜索所有尺度和图像位置,使用高斯差分函数来识别对比例和方向不变的潜在兴趣点,可以有效地实现该方法;
  2. 关键点定位:在每个候选位置,用一个详细的模型确定位置和尺度。基于其稳定性的度量选择关键点;
  3. 方向分配:基于局部图像梯度方向,每个关键点位置分配一个或多个方向。之后在图像数据上的操作,都是对每个特征进行指定方向、尺度和位置变换后进行的,因为这些变换具有不变性;
  4. 关键点描述子:在每个关键点周围的区域选定尺度测量局部图像梯度。这些可以转化成为一个允许显著的局部形状变化和光照变化的表示法;

这种方法被称为尺度不变特征变换,因为它基于局部特征,将图像数据变换为尺度不变的坐标。

这种方法的一个重要方面是它生成大量的特征,这些特征密集地覆盖图像的尺度和位置。典型的500x500像素大小的图像将产生大约2000个稳定的特征(尽管这个数字取决于图像的内容和各种参数的选择)。特征的数量对于目标识别特别重要,要想在杂乱背景中检测小目标,每个目标至少有3个正确匹配的特征,才能可靠识别。

对于图像匹配和识别,首先从一组参考图像中提取SIFT特征并存储在数据库中。将新图像中的每个特征与先前数据库中的特征进行单独比较,基于其特征向量的欧式距离找到候选匹配的特征,来匹配新图像。本文将讨论快速最近邻算法,它可以针对大型数据库快速执行这种计算。

关键点描述子非常独特,它使得单个特征能够在大型特征数据库中大概率找到其正确匹配。然而在杂乱的图像中,许多来自背景的特征在数据库中没有任何正确的匹配,还会产生许多错误的匹配。通过识别与新图像中的目标,位置,尺度和方向一致的关键点子集,可以从完整的数据集中过滤出正确的匹配。几个特征恰好与这些参数达成一致的概率远远低于单个特征匹配错误的概率。可以通过使用广义霍夫变换的哈希表来快速确定这些一致的聚类。

然后,由3个或更多特征组成一组聚类,这些特征与目标及其姿态是否是一致的,都要经过进一步的详细验证。首先,识别与此姿势一致的其他图像特征,并抛弃异常值。最后,在给定拟合精度和可能的错误匹配数的情况下,详细计算了特定特征集表示对象的概率。通过所有这些测试的目标,可以被认为是匹配正确的。

2. 相关工作

利用一组局部兴趣点进行图像匹配的发展可以追溯到莫拉维克(1981),利用角检测器进行立体匹配的工作。哈里斯和斯蒂芬斯(1988)改进了莫拉维克探测器,使其在小图像变化和近边缘下更具有可重复性。哈里斯还展示了它在有效运动跟踪和在三维重建中进行运动恢复的价值(哈里斯,1992),哈里斯角检测器已经被广泛用于许多其他的图像匹配任务。虽然这些特征检测器通常被称为角检测器,但是它们并不仅仅选择角点,而是选择在所有方向上有预定尺度并具有大梯度的图像的位置。

最初的应用是立体和短距离运动跟踪,但这种方法后来扩展到运用于更困难的问题。Zhang等人(1995)表明,在每个角的周围使用相关窗口来选择可能的匹配,使得在大幅图像范围内匹配哈里斯角是有可能实现的。然后,求解在刚性场景中,两个视图之间有几何约束的基本矩阵,并通过移除与多数解不一致的匹配,来移除异常值。与此同时,Torr (1995)研发了一种类似的远程运动匹配方法,其中也用几何约束去除图像中,运动的刚性物体的异常值。

Schmid和Mohr (1997)的开创性工作表明,不变的局部特征匹配可以扩展到用于一般的图像识别问题,使用其中单个特征与大型图像数据库相匹配。他们还使用哈里斯角来选择兴趣点,但他们没有使用相关窗口进行匹配,而是使用了局部图像区域的旋转不变描述子。这使得在两个图像之间方向变化的情况下依然可以进行特征匹配。此外,他们证明了多特征匹配可以通过识别匹配特征的一致聚类,来进行遮挡和杂乱情况下的一般识别。

哈里斯角检测器对图像尺度的变化非常敏感,所以它不能为不同尺寸图像的匹配提供良好的基础。作者早期的工作(Lowe,1999)扩展了局部特征方法以实现尺度不变性。这项工作还描述了一种有更显著特征的,同时对局部图像失真(如3D视点变化)不太敏感的,新的局部描述子。本文对这一早期工作进行了更深入的开发和分析,同时还在稳定性和特征不变性方面进行了改进。

先前有大量关于尺度变化下的识别表现稳定性的研究。Crowley和Parker (1984)在这一领域进行了一些初步工作,他们研发了一种表示法。这种表示法可以识别尺度空间中的峰和脊,并将它们连接成一个树形结构。然后,就可以在任意尺度变化的图像之间匹配树形结构。Shokoufandeh,Marsic和Dickinson (1999)最近在图像匹配的工作中,提出了一种使用小波系数的,更有特色的特征描述子。Lindeberg (1993,1994)深入研究了为特征检测确定一个合适并且一致的尺度的问题。他把这称为一个尺度选择的问题,我们在下文利用了他的结论。

最近,在扩展局部特征使其对全局仿射变换不变方面,有大量令人印象深刻的工作(Baumberg,2000;Tuytelaars和Van Gool,2000年;Mikolajczyk和Schmid,2002;Schaffalitzky和Zisserman,2002年;Brown and Lowe,2002年)。在大多数情况下,通过在局部仿射帧对图像进行重采样,允许在正交三维投影改变的情况下,与平面表面上的特征进行不变匹配。然而,还没有一个方法是实现全局仿射不变的,由于探索完全仿射空间需要高昂的成本,因此它们以非仿射不变的方式开始选择初始特征尺度和位置。仿射帧也比尺度不变特征对噪声更敏感,因此在实践中,除非仿射失真与平面的倾斜程度大于约40度,不然仿射特征比尺度不变特征具有更低的可重复性(Mikolajczyk,2002)。更宽的仿射不变性对于许多应用来说可能并不重要,因为至少每30度,就会旋转视角拍摄一次,以便发现三维目标的非平面变化和遮挡的影响(意味着在最近的视角,识别也在15度范围内)。

虽然本文提出的方法不是完全仿射不变的,但是使用了一种独特的方法,使描述子有很小的变化时,局部描述子可以显著地改变相关特征位置。这种方法不仅允许描述子在相当大范围的仿射失真内可靠地匹配,而且还使得特征对于非平面表面的三维视点变化更加鲁棒。其他优点包括有效的提取特征和识别大量特征的能力。另一方面,在视角变化非常大时,仿射不变性在平面表面匹配中是有价值的,并且应该进一步研究有效和稳定的方式,将其与非平面三维视点不变性最佳结合起来。

已经有许多用于识别的特征类型,其中一些可以辅助本文的特征在不同的环境下进一步的匹配。其中一类是那些利用图像轮廓或区域边界的特征,可以减少物体边界附近的杂乱背景干扰。Matas等人(2002)已经表明,它们的最大稳定极值区域可以产生大量有良好稳定性的匹配特征。Mikolajczyk等人(2003)研发了一种新的描述子,该描述子使用局部边缘同时忽略不相关的边缘,即使在重叠背景杂波上,狭窄形状的边界附近也能找到稳定特征。Nelson和Selinger (1998)展示了基于图像轮廓分组的局部特征的良好结果。类似地,Pope和Lowe (2000)使用了基于图像轮廓分层分组的特征,这对于缺乏详细纹理的对象特别有用。

视觉识别的研究历史包含了一系列可以用作特征测量的图像属性的工作。Carneiro和Jepson (2002)描述了基于相位的局部特征,其特征表示的是相位而不是局部空间频率的幅度,这可能改进光照的不变性。Schiele和Crowley(2000年)提出了使用多维直方图来概括图像区域内的测量分布。这种类型的特征对于识别畸变形状的纹理对象可能特别有用。Basri和Jacobs (1997)已经证明了将局部区域边界用于识别的价值。其他有效的属性比如颜色、运动、图形背景识别、区域形状描述子和立体景深提示。只要这些额外的特征进行正确的,鲁棒的匹配的同时,除了它们的计算成本之外,不会影响其他特征,局部特征方法就可以与额外的特征类型相结合。因此,未来的系统可能会结合许多类型的特征。

3. 尺度空间极值检测

如引言中所述,我们将使用级联过滤方法检测关键点。级联过滤方法使用高效算法来识别候选位置,然后对这些位置进行更详细的检测。关键点检测的第一阶段是,识别同一对象在不同视图下可重复分配的位置和尺度。通过使用尺度空间的连续尺度函数,在所有可能的尺度上搜索稳定的特征,可以实现对图像尺度变化具有不变性的位置的检测(Witkin,1983)。

Koenderink(1984)和Lindeberg(1994)已经表明,在经过各种合理的假设验证下,唯一可行的尺度空间核就是高斯函数。因此,定义图像的尺度空间为函数 L ( x , y , σ ) L(x,y,σ) L(xyσ),由尺度可变高斯函数 G ( x , y , σ ) G(x,y,σ) G(xyσ)与输入图像 I ( x , y ) I(x,y) I(xy)的卷积产生:

L ( x , y , σ ) = G ( x , y , σ ) ∗ I ( x , y ) L(x,y,σ) = G(x,y,σ)*I(x,y) L(xyσ)=G(xyσ)I(xy)

其中 * 为x和y的卷积操作,

G ( x , y , σ ) = 1 2 π σ 2 e − ( x 2 + y 2 ) 2 σ 2 G(x,y,σ) = \frac{1}{2πσ^2 } e^{\frac{-(x^2+y^2)}{2σ^2 }} G(xyσ)=2πσ21e2σ2(x2+y2)

为了有效地检测尺度空间中稳定关键点的位置,我们(Lowe,1999)已经提出尺度空间极值D(x,y,σ),即图像与高斯差分函数的卷积。其可以从用常数乘法因子k分开两个邻近尺度的差来计算:

D ( x , y , σ ) = ( G ( x , y , k σ ) − G ( x , y , σ ) ) ∗ I ( x , y ) = L ( x , y , k σ ) − L ( x , y , σ ) D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y) =L(x,y,kσ)-L(x,y,σ) D(xyσ)=(G(xykσ)G(xyσ))I(xy)=L(xykσ)L(xyσ)

选择此函数的原因有许多。首先,它是一个计算效率特别高的函数,因为在任何情况下都需要计算平滑图像L来描述尺度空间的特征,然后D就可以通过简单的图像减法计算得到。

图1:对于尺度空间的每个八度,初始图像与高斯图像重复卷积,产生左侧所示的尺度空间图像集。相邻的高斯图像被减去,以产生右侧的高斯差分图像。在每个倍频程之后,高斯图像被下采样2倍,并且重复该过程。
图1:对于尺度空间的每个八度,初始图像与高斯图像重复卷积,产生左侧所示的尺度空间图像集。相邻的高斯图像被减去,以产生右侧的高斯差分图像。在每个倍频程之后,高斯图像被下采样2倍,并且重复该过程。

此外,Lindeberg(1994)的研究中,高斯差分函数提供了尺度归一化拉普拉斯算子的近似值 σ 2 σ^{2} σ2 ∇ 2 ∇^2 2 G。Lindeberg表明,用 σ 2 σ^2 σ2因子归一化拉普拉斯算子是真实尺度不变性所必需的。在详细的比较实验中,Mikolajczyk(2002)发现,与一系列其他可能的图像函数(如梯度、Hessian或Harris角点函数)相比, σ 2 σ^2 σ2 ∇ 2 ∇^2 2 G的最大值和最小值生成最稳定的图像特征。
D与 σ 2 σ^2 σ2 ∇ 2 ∇^2 2 G的关系可以从热扩散方程中理解(参数为σ,而不是更常见的t=σ^2):

∂ G ∂ σ = σ ∇ 2 G \frac{∂G}{∂σ} = σ ∇^2 G σG=σ2G

从这里,我们看到使用 k σ kσ kσ σ σ σ邻近尺度的差值, ∇ 2 ∇^2 2 G可通过有限差分近似计算得到 ∂ G ∂ σ \frac{∂G}{∂σ} σG

σ ∇ 2 G = ∂ G ∂ σ ≈ G ( x , y , k σ ) − G ( x , y , σ

  • 14
    点赞
  • 51
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值