计算机视觉大型攻略 —— 特征与匹配（4）SIFT

最新推荐文章于 2023-06-24 23:08:01 发布

linusyue

最新推荐文章于 2023-06-24 23:08:01 发布

阅读量983

点赞数 1

分类专栏：特征与跟踪文章标签： sift 特征匹配特征描述符 keypoint 特征点

本文链接：https://blog.csdn.net/plateros/article/details/103308441

版权

特征与跟踪专栏收录该内容

5 篇文章 13 订阅

订阅专栏

参考书籍：Computer Vision: Algorithms and Applications， Richard Szeliski

参考论文：

[1] Distinctive Image Features from Scale-Invariant Keypoints

Scale Invariant Feature Transfrom

SIFT提出了一种尺度无关的特征变换算法。包括了特征点的检测，特征描述符的设计，[1]还提出了自己的特征匹配和SIFT在物体识别上的应用。特征点和特征描述符的介绍可参考之前的文章。

传送门：特征点检测

特征描述符

SIFT特征提取的步骤

尺度空间极值检测 (Scale-space extrema detection)
角点(Keypoint)定位 (Keypoint localization)
角点梯度方向的计算 (Orientation assignment)
角点描述符 (Keypoint descriptor)

尺度空间极值检测(Scale-space extrema detaction）

SIFT算法首先通过求尺度空间的极值获取角点(keypoints)坐标和scale的粗略估计。

首先简单说一下尺度。直观上来说，图像提供了2维的空间信息。尺度(Scale)定义了另外一个维度，即与观测者的距离。离着越远，图像越小，图像的细节越模糊。

通常尺度空间可以用图像金字塔的形式描述。不同大小的图像构成了图像金字塔。每层图像为下面一层图像长宽分辨率的各一半（整图为原图尺寸的四分之一）。通过某种函数对下层图像做处理，再下采样，生成上层图像。

如上图(左)为均值金字塔，对下层图像每四个像素求均值，获得相应的上层图像的值。上图(右)为高斯金字塔，对下层图像使用高斯函数滤波，再下采样获得上层图像的值。更多关于图像金字塔的内容，可参考Szeliski 3.5。

SIFT中的尺度空间定义为DOG金字塔。而DOG金子塔由高斯金字塔产生。

SIFT中的高斯金字塔

SIFT首先将尺度空间分成了若干octave。
每个octave包含一组图像。这些图像的分辨率相同，但是采用不同的方差做高斯滤波。上面一层标准差为下面一层标准差的k倍。
不同的Octave的高斯滤波的标准差不同。Octave1从 $\sigma _{0}$ 开始，Octave2从 $2\sigma _{0}$ 开始。
上层的ocatve的图像分辨率是下层的1/4，这就构成了图像金字塔结构。由上图所示，第二个octave的第一幅图像，是第一个octave的最后一幅图像下采样生成。
假设每个octave有s个scale，为了满足方差的变化的连续性，可以令 $k^{s} = 2$ ，或者写作 $k=2^{1/s}$ 。

从上面可以看到，只考虑高斯金字塔，每个octave应该至少有s+2幅图像（ $k^{0},...k^{s}$ 加原图）。然而，考虑到后续DOG需要s scale个平面的极值，实际上需要s+3张图像。完整的SIFT尺度空间如下图。

SIFT中的尺度空间（DOG金字塔）

将每个octave内的image求差，构成了SIFT的DOG尺度空间（上图右）。
在尺度空间的每个平面寻找极值（极大，极小）。同平面8个邻居+上层平面9邻居+下层平面9邻居=26。
如果需要找S个scale的极值，就需要s+2幅DOG图像，相应的，Gaussian金字塔就需要S+3幅图像。

通过极值粗略定位了Keypoint的Scale和坐标。

几个实现细节，

Lowe通过大量的实现，得出S=3，σ=1.6时，效果做好。
构建金字塔时，首先将原始图像尺寸扩大一倍，作为最底层。

番外：关于octave的翻译

octave是音乐中的音阶的意思，很多计算机视觉的教科书上直接将其翻译为"八度"。当初多少令我感到些困惑。因为金字塔中各种图像的数量和"8"没有任何关系。不过单纯从音阶的角度来理解，作者取名为octave是非常形象的。音阶中，每个八度中(哆啦咪发嗦啦西）音节的不同代表了方差的不同，而下一个八度又是承接了前一个八度的音阶，与作SIFT的金字塔非常相似。

角点定位(Keypoints localization)

上一步得到了角点尺度σ与坐标(x, y)是离散的，这一步通过差值获得亚像素(sub-pixel)的坐标和sub-scale。Lowe采用三维多项式的方法拟合求极值。

该问题可描述为，定义scale-space function D(x, y, σ)，已知极值在离散点(xi, yi, σi)附近，求极值。

求解过程，将D(x, y, σ)二阶泰勒展开。得到以上公式。D为采样点(上一步得到的离散Keypoint）的值， $\frac{\partial D^{T}}{\partial x}$ 为采样点梯度向量， $\frac{\partial D^{2}}{\partial x^{2}}$ 为采样点的3*3 Hessian矩阵，x为采样点与极值点的offset。对x求导，并令导数为0，可得x