SIFT算法详解——图像特征提取与匹配


前言

SIFT(Scale Invariant Feature Transform)即尺度不变特征变换算法,该特征向量集具有对图像缩放,平移,旋转不变的特征。在对图片进行特征提取及匹配时,对于光照、仿射和投影变换也有一定的不变性,是一个鲁棒性较强的特征提取与匹配算法。

以下是SIFT特征提取与匹配算法的处理流程。

一、建立高斯差分金字塔

1、建立高斯金字塔

我们知道对于高斯核来说,可以用不同的方差σ计算得到不同的高斯核。通过不同尺度的高斯核对原始图像进行卷积(此处方差σ我们称为尺度),卷积过后得到最下方的Octave1图组。而高斯金字塔上方的Octave2图组是由Ovtave1图组进行隔点取点对Octave1图组进行下采样后,再用不同尺度的高斯核进行卷积得到的。也就是:

  1. 对Octave1图组中的图片进行隔点取点下采样
  2. 对下采样后的图组进行不同尺度的高斯核卷积

通过以上两个步骤,得到Octave2图组。那依次类推,Octave3是由Octave2下采样后再卷积得到的…这样,我们得到了高斯金字塔,如下图所示。
在这里插入图片描述

2、建立高斯差分金字塔

我们现在已经得到了图像的高斯金字塔。还不能结束,我们最终的目的是得到高斯差分金字塔。
由于相同图组中的图像大小是一样的,我们将相邻两层的图像像素点相减(此处的相减就是传统意义上的减号),得到差分层。这样我们对不同Octave层都进行此操作,得到高斯差分金字塔,如下图所示。

图2 高斯差分金字塔

3、建塔过程中参数的设定及相关细节问题

此处的参数主要是指两个:

  • O:高斯金字塔中,要有多少个Octave图组
  • S:高斯金字塔中,每个Octave组要有多少层
    在这里插入图片描述

如上图第一个公式,我们要选择多少组其实可以自己设定。但原SIFT论文中给出了建议值。

  • 对于O的选择:M、N指原图像的长和宽,求最小值后开log再减3
  • 对于S的选择:n指我们希望提取多少个图片中的特征。一般2个的话n也就是取2,加上3后S取5

现在萌生了第一个问题,3是怎么来的呢?为什么两个公式中都有3?
答:对于这个问题,我们从结果来分析原因。我们可以看到上图2中的高斯差分金字塔,对于原高斯金字塔中的5张图,进行像素点相减操作后只能得到4张图。对于4张图片我们要找特征点,我们是在尺度空间(在前文中提到方差也就是尺度)中寻找极值点,那除了x、y两个平面方向,还有一个尺度方向,我们可以理解为z轴。那对于最上面的差分层来说,由于它上面已经没有图片了,我们无法在z方向对它进行求导,也就是说我们无法在最上层的差分层找极值点了。同理,最下层的差分层也无法找极值点。
那最上层和最下层都无法找极值点,减去2。此时要注意,我们从高斯金字塔到高斯差分金字塔的变换过程中也损失了1层。再加上损失的这层,2+1,也就是3的由来了。
在这里插入图片描述
第二个疑问,SIFT为什么要建立高斯金字塔这样的一种结构?
答:由于高斯金字塔是逐步下采样得到的一个金字塔状。我们希望算法在对图像进行处理的时候,对于不同拍摄距离得到的图片具有远近特征的不变性。无论摄像机拿的远近,对于同一个物体都可以识别。那高斯金字塔这种下大上小的结构也就模拟了这种构想。同样,用高斯核去卷积实际上是模拟了近处清晰、远处模糊。并且数学上有相关证明:高斯核是唯一一个可以模拟近处清晰、远处模糊的线性核。这也就是为什么我们只能用高斯核的原因。

第三个疑问,建塔过程中的σ如何配置的呢?
答:如下图所示,我们令k=2开n次方。对于Octave1中的第一层,我们直接用σ,第二层就乘上一个σ,即kσ,以此类推。对于Octave2中的第一层,我们取Octave1中的倒数第三层,因为倒数第三层的σ为k^nσ,也就是为了凑2σ,达到一个隔点取点的降采样效果。

第四个疑问,σ0又是如何设置的呢?
由于我们相继本身拍出的相片也不是完全清晰的,也具有一个模糊尺度。在论文中我们认为模糊尺度为0.5,我们希望第一次高斯核卷积后尺度可以达到1.6。那我们用1.52的方差σ0去卷积,就可以得到1.6的尺度。实际上这个过程是利用了高斯核的类勾股数性质,如图右下方公式。
注:用0.5尺度的高斯核去卷积,将得到的结果再用1.52尺度的高斯核去卷积。以上操作跟直接用1.6尺度的高斯核去卷积得到的图片,效果是一样的。
在这里插入图片描述

二、关键点(key points)位置确定

1、阈值化

abs(val) > 0.5*T/n							T=0.04

以上公式,通过阈值化去掉噪声点。

2、在高斯差分金字塔中找极值点

由于我们是在尺度空间中进行极值点的查找的,除了平面x、y轴外还有个尺度的σ轴,所以我们要在26个点(三层)中找到极大值点或极小值点,如下图所示。
在这里插入图片描述
我们通过这种方式,实际上是在离散空间中找到极值点的。实际上,真实极值点存在的位置可能并不是在这些个离散点上的,而是在离散空间中我们找到的极值点附近的点。所以我们通过一些方式找到一个精确的亚像素位置的真正极值点。
那么,用什么方式来进行这个真实极值点寻找呢?泰勒展开。

3、调整极值点位置

在检测到的极值点X0附近做三元二阶泰勒展开,也就是做一个X0处函数的近似,如下图。
在这里插入图片描述
得到f(X)后,我们对f(X)求导,如下:
在这里插入图片描述

此处,我们得到的X一帽,相当于是我们得到的X0相对于真实极值点的位移量。我们将这个值反代入f(X)中,就得到了真实极值点的值,如下。
在这里插入图片描述
当然,在算法实现时,我们求得真实极值点是一个迭代的过程。有三种情况:

  • 设置的迭代条件:X一帽的三个分量x、y、σ均小于0.5时,方可成立。此时位移量已经足够小了,我们就认为已经收敛了。
  • 出现函数不收敛的情况,那我们将这么点直接舍去。
  • 函数已经收敛,但解超出了一定范围,舍去。

4、舍去低对比度的点

|f(X)| < T/n,则舍去X

通过以上公式,舍去对比度较低的点,很可能是个噪声点。

5、边缘效应的去除(难点)

首先,我们引入一个海参矩阵,如下:
在这里插入图片描述
矩阵中的值,实际上就是上文求真实极值点过程中,框选的四个值。
在这里插入图片描述
海参矩阵可以描述函数的局部的曲率。我们希望某个点在x、y两个方向的曲率差不多,否则的话它很可能是一个边缘点。根据数学上的概念,海参矩阵的特征值和曲率是呈正比的。
此处我们不去算它的特征值,太麻烦了。通过引入迹和行列式来代替特征值α和β的关系,如下:
在这里插入图片描述

  1. 若Det(H)<0,说明两个特征值已经异号了,也就是曲率肯定是不接近的,存在边缘效应,直接舍去X点。

  2. 若Det(H)>0且α>β,说明γ>1,如下:
    在这里插入图片描述

由于(γ+1)^2/γ化简后是一个对勾函数,γ>1,也就变成了一个单增函数。那么在γ=1时就是他的最小值。由于γ=α/β,γ的值越小则曲率越低,我们为γ设置一个阈值,建议取10。也就是:
在这里插入图片描述

三、为关键点赋予方向

此时我们已经确定了关键点,下面要做的就是为关键点赋予方向。假设我们找到的关键点如下图,红点是关键点。
在这里插入图片描述

1、亚像素点尺度去对应离散点尺度

首先,我们在高斯金字塔上找到和关键点的σ值最接近的某个高斯图层所对应的尺度σx。(也就是从亚像素点尺度去对应离散点的尺度)

2、统计

统计 以该特征点为圆心,以1.5倍的σx为半径的圆内的所有梯度方向及其梯度幅值,并做1.5σ的高斯滤波。(此处做高斯滤波的意义就是为了加权,使得离中心越近的点权值越高)
在这里插入图片描述

3、找到主方向

通过统计结果找到该特征点的主方向,也可能存在辅方向(>80%则有)。对于有两个方向的特征点,实际上我们是以两个特征点去处理的。
在这里插入图片描述

四、构建关键点的描述符

通过上文操作,我们已经确定了关键点的xy位置信息、尺度σ以及方向。为了方便后续关键点匹配,我们最后一步要做的就是构建关键点的描述符。在SIFT算法中,描述符其实是一个128维的向量。在特征点匹配过程中,通过k近邻等方式对特征点进行匹配。

1、旋转至主方向所在方向

将特征点周围的区域旋转至主方向所对应的方向。这也是SIFT算法具有旋转不变性的原因所在。
在这里插入图片描述

2、确定关键点附近区域的大小。

如下图所示,论文中的区域大小是这样设置的。m取3,mσ是指每个小区域的边长大小。d是指所确定的区域中在x、y方向上有多少个小区域,论文中取4。
在这里插入图片描述

3、在确定的区域上做128维描述符统计

在4×4个子区域中,包含了很多梯度方向。经过高斯加权后,在每个子区域中统计8个方向的梯度长度。128维向量是怎么来的呢?16*8。16是指16个子区域,8是指8个方向。那么我们按照顺序将128个梯度长度标记即可得到关键点的描述符。
在这里插入图片描述
完成关键点进行描述后,我们就可以用K近邻等方式对最接近的两个关键点进行匹配。这样也就完成了特征点的匹配工作啦!

总结

本文具体介绍了SIFT算法的原理及流程。之前用SIFT、SURF、ORB等算法做过相关项目,但仅仅是跑了代码,算法原理也没有很理解。这次终于把SIFT部分梳理通透啦!

  • 14
    点赞
  • 92
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值