学习SIFT算法过程中的释疑

最新推荐文章于 2024-07-28 08:45:45 发布

viewcode

最新推荐文章于 2024-07-28 08:45:45 发布

阅读量7.3k

点赞数 7

分类专栏：图像处理

本文链接：https://blog.csdn.net/viewcode/article/details/8510338

版权

图像处理专栏收录该内容

16 篇文章 1 订阅

订阅专栏

介绍SIFT算法的文章

David G. Lowe, "Distinctive image features from scale-invariant keypoints,"International Journal of Computer Vision, 60, 2 (2004), pp. 91-110

文章一开始就给出了sift特征的关键步骤：

1. 利用尺度空间，检测极值点

2. 对极值点（关键点）精确定位，以及剔除一些不好的特征点

3. 对关键点生成方向参数

4. 生成关键点的特征描述符

一开始接触SIFT算法，在这些步骤中，还有很多不理解的地方，看了原文和一些blog，才有点感觉，这里总结下这个过程中的疑问和答案。

1. 一些基本概念

2. 为什么是DOG算子，Gaussian算子，为什么不是LOG算子？

3. 为什么原图像有时长宽扩大一倍？为什么需要高斯金字塔的降采样，形成octave的形式？

4. 多尺度是指哪些？

5. 什么是octave？

6. 空间尺度的连续性怎么理解？

7. 对旋转不变性、亮度变化不变性体现在什么地方？

参考的一些blog，写的真不错：

http://blog.csdn.net/sunminmin2011/article/details/8130090

http://wenku.baidu.com/view/dc5fffec102de2bd9605886e.html

http://www.360doc.com/content/11/1230/23/3054335_176200661.shtml

http://blog.csdn.net/abcjennifer/article/details/7639681

有关特征的一些概念：

图像的变化形式：旋转、尺度变换、仿射变换、视角变换、光照变化等。

不变量：同一场景下，图像有些变化，但图像中仍有保持稳定不变的特征，对这些特征的描述，就称为不变量

尺度不变量：图像尺度有变化时，那些不变的特征就称为尺度不变量

旋转不变量：图像旋转时，那些不变的特征就称为旋转不变量

常用的图像特征：角点（局部极值点）、边缘、轮廓

稳定的特征向量：将多种特征组合、变换，形成稳定的特征向量，即不受图像尺度、旋转等变换的影响。

多尺度下的极值点：一般来说，测试一点是否是极值点，就是比较此点与周围的点，当此点比周围的点都大时，其就是极值点；但多尺度下的极值点，不仅要求此点在原图上是极值点，还要求其比其他尺度空间的同范围的点值都大。这个性质就是尺度不变量，这个是定义。

特征描述子（符）：拿到特征点后，利用特征点及其邻域的信息，如梯度等，转化为一个数值向量，最好与特征点的位置，scale等空间特征无关。这个数值向量形成了特征空间。无论特征点的空间位置及其他环境如何变化，特征空间对其的描述表示，保持稳定。

-------------------

1. 基础知识：尺度空间理解

一般的尺度变换理解：

尺度，首先从信号处理来理解这个概念，对信号的尺度变换，就对信号进行缩放，比如对时域扩展，频域就收缩 !!!-_-，要复习信号的一些知识。

对图像的尺度变换的形式：一种就是将图像直接缩放成不同的大小。常见金字塔抽样，就是这种尺度变换的一种。

其他尺度变换的形式：

高斯尺度变换

小波变换

以及更泛化的多分辨率尺度变换

http://blog.csdn.net/tanxinwhu/article/details/7048370 尺度空间理解介绍

2. 为什么是DOG算子，Gaussian算子，为什么不是LOG算子？

DOG/LOG算子就是借助高斯尺度变换的特征。确切的说应该是LOG特征，Mikolajczyk发现LOG的极值点（极大值和极小值）比梯度（一阶导数），Hessian(二阶导数矩阵)，及harris角点具有更稳定的特征。而DOG具有近似LOG的性质，且比LOG的运算效率更高。

Gaussian滤波器，压制高频信息，而DOG算子在Gaussian滤波器压制高频的基础上，又压制了低频的区域，形成一个带通滤波器。带通，指指定频带通过，在空域上，表现为指定尺度的细节图像保留下来。这个要比普通的高频锐化算法检测细节的效果好，因为高频锐化不仅增强了细节，还增强了高频噪声。图像增强时，DOG算法中两个高斯核的半径之比通常为4:1或5:1。

DOG算子如何简化计算？

而与LOG算子比较，DOG算子其尺度变化更自由，当高斯核半径比为1:1.6时，才是LOG算子的近似。

DOG算子具有LOG归一化的近似的性质，计算更方便、速度更快，所以采用DOG算子。

3. 为什么原图像有时长宽扩大一倍？

有时采用双线性插值扩大一倍，目的同高斯金字塔降采样一样，是为了scale上扩大采集特征点的范围，以实用多尺度scale的匹配

有了高斯尺度空间，大的标准差对应图像概貌，提取云朵之类的低频特征比较丰富的特征点，小的标准差对应图像细节，提取高频细节比较丰富的特征点，为什么还需要高斯金字塔的降采样，形成octave的形式？

应该是为了达到图像匹配时，有尺度缩放不变性的能力。形成了关键点的坐标(scale, x, y)三维空间的形式。尺度不变性，其实就是具有提取多尺度的特征，以适应各种尺度的场景。

4. 多尺度是指哪些？

1. 高斯系数的变化: 在图像大小不变的情况下，改变高斯函数标准差的大小，其比例系数1， k， k^2，... ， k^n

2. 空间分辨率的变化: 金字塔式抽样，改变图像大小，对图像进行间隔抽样，或者双线性插值抽样。

如下图：