SIFT算法,基于局部尺度不变特征的目标识别(Object Recognition from Local Scale-Invariant Features)

摘要
该文献介绍了一个目标识别系统,该系统基于一种新的局部图像特征进行工作。无论是对图像进行缩放、平移还是旋转,提取出的特征都能保持不变。此外,即使在光照变化或图像进行仿射变换时,这些特征仍然具有不变性。这些特征与灵长类动物视觉系统中用于目标识别的下颞皮层神经元具有相似的特点。通过滤波操作,我们可以检测出尺度空间中的关键点,并在多个图像上进行滤波以创建图像关键点。然后,通过最近邻索引方法,确定与之匹配的候选目标(图像)。使用低残差最小二乘解来搜索参数。实验结果表明,即使在图像的部分被遮挡的情况下,该目标识别系统仍能在不到2秒的计算时间内实现稳定的目标识别。。

1.介绍
在复杂的现实场景中进行目标识别需要使用局部图像特征,这些特征能够在目标物被部分遮挡的情况下保持稳定。这些特征必须在一定程度上对光照、3D投影变换等具有不变性。另一方面,这些特征也必须足够独特,以在众多可选项中准确识别特定的目标。目标识别的挑战主要在于如何找到这样的特征。
然而,最近有研究表明,在同一个位置多次采样出的局部图像描述符,可以出色地完成任务。

本文介绍了一种名为尺度不变特征变换(Scale Invariant Feature Transform,SIFT)的图像特征生成方法。该方法将图像转化为特征向量,每个向量对图像的平移、缩放和旋转具有不变性,并且对光照变化和仿射变换具有一定的不变性。相比传统的局部特征生成方法,SIFT特征拥有更强的鲁棒性。此外,对于索引和模型验证,本文还介绍了改进的方法。

通过分阶段的滤波,可以高效识别出尺度不变的特征。第一阶段,寻找高斯差分函数的极值确定尺度空间中的关键点。根据这些关键点生成特征向量,描述局部图像区域。对不同图像进行模糊处理。这种方法基于哺乳动物视觉皮质中细胞的行为。生成的特征向量被称为SIFT关键点。每个图像生成大约1000个SIFT关键点,计算时间少于1秒。

获得SIFT关键点后,使用最近邻搜索以识别目标。通过霍夫变换哈希表首先识别在潜在模型姿态上一致的关键点集合,然后通过最小二乘拟合来获得模型参数的最终估计。当至少有3个关键点在模型参数上具有低残差的一致时,就有强有力的证据表明物体存在。由于典型物体的图像中可能有数十个SIFT关键点,因此图像中可能存在大量遮挡,但仍然能保持高可靠性水平。

当前的对象模型以可以进行仿射投影的SIFT关键点的2D位置表示。允许特征位置的足够变化以识别距离相机最多60度旋转的平面形状的透视投影,或者允许3D对象最多20度的旋转。

2.相关研究
目标识别在机器视觉行业中被广泛应用于检测、注册和操作等领域。然而,目前商业化的目标识别系统几乎完全依赖基于相关性的模板匹配。尽管在某些工程环境中非常有效,其中目标姿态和光照得到严格控制,但当目标的旋转、尺度、光照和3D姿态允许变化,甚至在处理部分可见性和大型模型数据库时,模板匹配的计算复杂度变得不可行。一种替代的方法是从图像中提取特征,这些特征至少在图像形成过程中部分不变,并且仅与这些特征进行匹配。已经提出和探索了许多候选特征类型,包括线段[6]、边缘组合[11, 14]和区域[2]等。尽管这些特征对于某些目标类别效果良好,但它们经常不能被频繁检测到或具有足够的稳定性来形成可靠的识别基础。

最近的研究工作集中在开发更密集的图像特征集合。一种方法是使用角点检测器(更准确地说,是局部图像变化峰值检测器)来识别可重复的图像位置,围绕这些位置可以测量局部图像属性。张等人[23]使用Harris角点检测器来识别不同视点拍摄的图像的对极线对齐特征位置。与试图将一个图像的区域与第二个图像中的所有可能区域进行相关性匹配不同,只有匹配在每个图像中以角点为中心的区域,可以大大节省计算时间。

对于目标识别问题,Schmid和Mohr[19]也使用Harris角点检测器来识别兴趣点,然后从每个兴趣点创建一个局部图像描述符,该描述符是一个不受方向影响的高斯导数图像测量向量。通过寻找满足基于目标的方向和位置约束的多个匹配描述符,这些图像描述符用于鲁棒的目标识别。这项工作既在大型数据库中的识别速度上令人印象深刻,又能处理杂乱的图像。
在之前的方法中使用的角点检测器存在一个重大缺陷,即它们仅在单一尺度上检查图像。随着尺度变化变得显著,这些检测器会对不同的图像点作出不同的响应。此外,由于检测器不提供对象尺度的指示,因此需要在大量尺度上创建图像描述符并尝试匹配。本文描述了一种在尺度空间中识别稳定关键位置的高效方法。这意味着图像的不同尺度对选择的关键位置集合没有影响。此外,对每个点确定了一个明确的尺度,这使得该点的图像描述向量可以在每个图像中以等效尺度进行采样。在每个位置确定了一个规范化方向,以便可以相对于一致的局部2D坐标框架进行匹配。这允许使用比Schmid和Mohr使用的旋转不变性描述符更具特征性的图像描述符,并且进一步修改描述符以改善对仿射投影和光照变化的稳定性。

基于外观的其他识别方法包括特征空间匹配[13]、颜色直方图[20]和感受野直方图[18]。这些方法在孤立对象或预分割图像上都取得了成功的应用,但由于它们具有更全局的特征,将它们扩展到杂乱和部分遮挡的图像上变得困难。Ohba和Ikeuchi [15]成功地将特征空间方法应用到杂乱图像中,通过使用许多小的局部特征窗口,但这就需要在新图像中为每个窗口进行昂贵的搜索,就像模板匹配一样。

3.关键点定位
我们希望在图像尺度空间中识别出对图像平移、缩放和旋转不变的位置,并且对噪声和小扭曲的影响最小。Lindeberg[8]已经证明,在对尺度不变性做出一些相当普遍的假设下,高斯核及其导数是尺度空间分析的唯一可能的平滑核。

为了实现旋转不变性和高效性,我们选择在尺度空间中应用差分高斯函数的极大值和极小值处选择关键位置。这可以通过在每个级别之间进行重采样来非常高效地计算。此外,它定位在变化较大的区域和尺度上的关键点,使得这些位置在表征图像时特别稳定。Crowley和Parker[4]以及Lindeberg[9]以前已经在尺度空间中使用差分高斯函数进行其他用途。接下来,我们将描述一种特别高效和稳定的方法来检测和描述这个函数的极大值和极小值。

由于2D高斯函数是可分离的,它与输入图像的卷积可以通过在水平和垂直方向上应用两次1D高斯函数来高效计算。
g ( x ) = 1 2 π σ e − x 2 / ( 2 ∗

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

高翰林

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值