Sift 十大问

     Scale Invariant Feature Transform(SIFT)  十大问

         向经典致敬

  

             

              1 为什么要讨论尺度空间

              2 为什么要建立高斯金字塔

              3 为什么是高斯滤波?

              4 为什么高斯差分金字塔可以粗定位极值点?


            ************************************************************************

             1 为什么要讨论尺度空间

图像尺度空间感受实例

   感受什么是尺度空间

2尺度空间方法的基本思想是:

在视觉信息处理模型中引入一个被视为尺度的参数,通过连续变化尺度参数获得不同尺度下的视觉处理信息,然后综合这些信息以深入地挖掘图像的本质特征。尺度空间方法将传统的单尺度视觉信息处理技术纳入尺度不断变化的动态分析框架中,因此更容易获得图像的本质特征。尺度空间的生成目的是模拟图像数据多尺度特征。高斯卷积核是实现尺度变换的唯一线性核。

3尺度空间理论的动机:

a)       现实世界的物体由不同尺度的结构所组成;

b)       在人的视觉中,对物体观察的尺度不同,物体的呈现方式也不同;

c)       对计算机视觉而言,无法预知某种尺度的物体结构是有意义的,因此有必要将所有尺度的结构表示出来;

d)       从测量的角度来说,对物体的测量数据必然是依赖于某个尺度的,例如温度曲线的采集,不可能是无限的,而是在一定温度范围进行量化采集。温度范围即是选择的尺度;

e)       采用尺度空间理论对物体建模,即将尺度的概念融合入物理模型之中。

图像尺度空间理论

当用一个机器视觉系统分析未知场景时,计算机没有办法预先知道图像中物体尺度,因此,我们需要同时考虑图像在多尺度下的描述,获知感兴趣物体的最佳尺度。所以在很多时候,我们会在将图像构建为一系列不同尺度的图像集,在不同的尺度中去检测我们感兴趣的特征。

5  最为基础的四类尺度空间

线性尺度空间

非线性尺度空间

形尺度空间

数学形态学尺度空间

线性尺度空间方法较好地体现了视觉多尺度分析的思想, 因而最早广泛应用于图像滤波和深层结构分析。然而, 线性尺度空间具有以下明显缺陷: 一方面, 热扩散方程描述的是各向同性的扩散过程, 因此在光滑图像时, 任意象素点的灰度值在各个方向的扩散都相同, 这必然引起图像边缘模糊化; 另一方面, 对比度不变性和线性性是一对矛盾, 热扩散方程的线性性决定了它无法满足对比度不变性,随着尺度t 的增加, 图像逐渐光滑, 但图像的细节信息逐渐变得模糊, 且对比度发生了显著变化, 这是图像处理所不愿看到的。因此, 为克服线性尺度空间的缺陷, 必须研究非线性尺度空间方法。

非线性尺度空间

对比度不变性和仿射不变性,而这些性质是线性尺度空间方法所不具备的。

形(shape)尺度空间

线性尺度空间和非线性尺度空间关注的是图像的整个空间区域, 然而在视觉识别和分析中, 我们也常常关心图像中的某些局部区域( 例如水平集和水平线)。形尺度空间是通过演化围成局部区域的约当曲线来分析图像局部特征的多尺度分析方法。

数学形态学尺度空间

数学形态学的基本思想是: 通过调整所含参数, 逐渐简化图像, 但同时保持图像的基本形状,因此其分析图像的过程具有视觉多尺度分析的特征。将数学形态学纳入尺度空间框架, 它主要由膨胀和腐蚀两类基本算子构成,在一定条件下, 非线性尺度空间方法可以通过数学形态学中的膨胀( 或腐蚀) 算子和仿射不变迭代滤波算子来实现, 而反之亦然。这说明两种尺度空间方法在一定意义上是一致的。

参考:《计算机视觉中的尺度空间方法*》孙剑, 徐宗本

************************************************************************

 2 为什么要建立高斯金字塔

 

   金字塔是图像多尺度表示的主要形式,图像金字塔是以多分辨率来解释图像的一种有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低的图像集合。大小不同的图像获取的信息因此尺度问题会产生不同的信息,(第一问尺度空间可以解释这个小问题),一般抽样比例在水平和竖直方向上都为1/2,从而得到一系列的缩小的图像。

    高斯金字塔模仿的是图像的不同的尺度,尺度应该怎样理解?对于一副图像,你近距离观察图像,与你在一米之外观察,看到的图像效果是不同的,前者比较清晰,后者比较模糊,前者比较大,后者比较小,通过前者能看到图像的一些细节信息,通过后者能看到图像的一些轮廓的信息,这就是图像的尺度,图像的尺度是自然存在的,并不是人为创造的。

每个金字塔共n层。金字塔的层数根据图像的原始大小和塔顶图像的大小共同决定。

高斯金字塔则是金字塔的进一步优化,为了让尺度体现其连续性。分为阶和层两个概念,每个阶直接通过降采样,每层之间是通过不同的高斯核实现。

多尺度和多分辨率

尺度空间表达和金字塔多分辨率表达之间最大的不同是:

  • 尺度空间表达是由不同高斯核平滑卷积得到,在所有尺度上有相同的分辨率;
  • 而金字塔多分辨率表达每层分辨率减少固定比率。

所以,金字塔多分辨率生成较快,且占用存储空间少;而多尺度(只进行高斯滤波)表达随着尺度参数的增加冗余信息也变多。多尺度表达的优点在于图像的局部特征可以用简单的形式在不同尺度上描述;而金字塔表达没有理论基础,难以分析图像局部特征。

Sift的高斯金字塔就是高斯滤波+金字塔,一般有4阶(分辨率上的区分),每一阶有5层(不同的高斯参数进行滤波)。

 ************************************************************************

3 为什么是高斯滤波?

    高斯核是唯一可以产生多尺度空间的线性核《Scale-space theory: A basic tool for analysing structures atdifferent scales》

使用高斯滤波器对图像进行尺度空间金塔塔图的构建,让这个尺度空间具有下面的性质:

1 加权平均和有限的孔径效应  2 层叠平滑

3 局部极值传递性            4 尺度伸缩不变性

高斯模版是圆对称的,且卷积的结果使原始像素值有最大的权重,距离中心越远的相邻像素值权重也越小。在实际应用中,在计算高斯函数的离散近似时,在大概3σ距离之外的像素都可以看作不起作用,这些像素的计算也就可以忽略。所以,通常程序只计算(6σ+1)*(6σ+1)就可以保证相关像素影响。

高斯模糊另一个很厉害的性质就是线性可分:使用二维矩阵变换的高斯模糊可以通过在水平和竖直方向各进行一维高斯矩阵变换相加得到。O(N^2*m*n)次乘法就缩减成了O(N*m*n)+O(N*m*n)次乘法。(N为高斯核大小,m,n为二维图像高和宽)

*******************************************************************************

   4 为什么高斯差分金字塔可以粗定位极值点? 

下面先讲解一下拉普拉斯算子:

        人眼更敏感的地方往往是图像细节,因此我们感兴趣的是图像灰度突变的开始点与结束点以及沿着灰度斜坡处的微分性质。
一阶微分的性质:
1) 在恒定灰度区域的微分值为零
2) 在灰度台阶或斜坡处为分支非零
3) 沿着斜坡的微分值非零
二阶微分性质:
1) 在恒定灰度区域微分值为零
2) 在灰度台阶或胁迫的起点处微分值非零
3) 沿着斜坡的微分值非零

       很明显一阶微分不仅在图像灰度跳变的地方非零,在灰度斜坡处也非零,这样可以产生粗边缘;而二阶微分只在图像灰度跳变的地方非零,可以产生一个双边缘。二阶微分对精细细节具有较强的相应。

我们更加关注各向同性的滤波器,所谓的各向同性是旋转不变的,即将原图像进行旋转后进行滤波处理给出的结果与先对图像进行滤波然后再旋转的结果相同。

因此我们希望用一个二阶微分且是各向同性的——》其中最简单各向同性微分二阶算子就是拉普拉斯算子了

转化为俩个变量的离散拉普拉斯算子:


       Laplace算子是通过对图像进行微分操作实现边缘检测的,所以对离散点和噪声比较敏感。于是,首先对图像进行高斯卷积滤波进行降噪处理,再采用Laplace算子进行边缘检测,就可以提高算子对噪声和离散点的鲁棒性,如此,拉普拉斯高斯算子Log Laplace of Gaussian)就诞生了。

高斯-拉普拉斯算子其实就是:先对图像进行高斯模糊,然后再求二阶导数,二阶导数等于0处对应的像素就是图像的边缘

因为高斯差算子(DOG)与高斯-拉普拉斯(LOG)存在关系,所以使用了高斯差分算子,那么下面看看他们的关系。

首先直接说出结论:

  1 高斯差分计算简单,速度快,因为它利用高斯卷积的减法运算。但通过减法取代LoG核的计算过程,显著减少了运算次数。

  2高斯差分是对尺度归一化的一个很好的近似,而尺度归一化的空间具有真正的尺度不变性。     

 

一幅二维图像在不同尺度空间可以表示由图像的高斯核卷积得到:

      ,   

      D(x,y,z)=\frac{s}{ss}

       构建高斯差尺度空间DOG: 

     

      

在实际计算时,使用高斯金字塔每组中相邻上下两层图像相减,得到高斯差分图像,然后进行极值检测,关键点是由DOG空间的局部极值点       组成的。SIFT里面:一个像点与同层的8个,上下分别9个像素,一共26个像素点进行比较,都大或者都小则记录为极值点。




参考:SIFT算法详解

           小魏的修行路


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值