SIFT特征

最新推荐文章于 2021-12-29 14:44:35 发布

羊肉串串魅力无穷

最新推荐文章于 2021-12-29 14:44:35 发布

阅读量775

点赞数

分类专栏：图像 - 特征提取

本文链接：https://blog.csdn.net/lk3030/article/details/84033525

版权

图像 - 特征提取专栏收录该内容

4 篇文章 5 订阅

订阅专栏

SIFT，即尺度不变特征变换，Scale Invariant Feature Transform。Sift提取图像的局部特征，在尺度空间寻找极值点，并提取出其位置、尺度、方向信息。

文章目录

SIFT特征的特点

对旋转、尺度缩放、亮度变化保持不变性，对视角变化、噪声等也存在一定程度的稳定性；
独特性，信息量丰富，适用于在海量特征数据中进行快速，准确的匹配；
多量性，即使少数几个物体也可以产生大量的Sfit特征向量；
可扩展性，可以很方便的与其他形式的特征向量进行联合；

SIFT算法的实质是在不同的尺度空间上查找关键点（特征点），计算关键点的大小、方向、尺度信息，利用这些信息组成关键点对特征点进行描述的问题。Sift所查找的关键点都是一些十分突出，不会因光照，仿射便函和噪声等因素而变换的“稳定”特征点，如角点、边缘点、暗区的亮点以及亮区的暗点等。匹配的过程就是对比这些特征点的过程，这个流程可以用下图表述：

SIFT特征提取和匹配具体步骤

生成高斯差分金字塔（DOG金字塔），尺度空间构建
空间极值点检测（关键点的初步查探）
稳定关键点的精确定位
稳定关键点方向信息分配
关键点描述
特征点匹配

0.1 图像金字塔

图像金字塔是一种以多分辨率来解释图像的结构，通过对原始图像进行多尺度像素采样的方式，生成N个不同分辨率的图像。把具有最高级别分辨率的图像放在底部，以金字塔形状排列，往上是一系列像素（尺寸）逐渐降低的图像，一直到金字塔的顶部只包含一个像素点的图像，这就构成了传统意义上的图像金字塔。

获得图像金字塔一般包括二个步骤：

利用低通滤波器平滑图像
对平滑图像进行抽样（采样）

下采样：对于一幅图像I尺寸为 $M * N$ ，对其进行s倍下采样，即得到 $(M / s) * (N / s)$ 尺寸的分辨率图像
上采样：多采用内插方法，在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

0.2 高斯金字塔

高斯金字塔式在Sift算子中提出来的概念，首先高斯金字塔并不是一个金字塔，而是有很多组（Octave）金字塔构成，并且每组金字塔都包含若干层（Interval）。通过不同程度的高斯平滑和下采样构成，模仿的图像远去时在视网膜上的成像。

高斯金字塔构建过程：

先将原图像扩大一倍之后作为高斯金字塔的第1组第1层，将其图像经高斯卷积（高斯平滑/高斯滤波）之后作为第1组金字塔的第2层，高斯卷积函数如下，对于参数σ，在Sift算子中使用固定值1.6。
$G(x,y)=\frac{1}{2\pi\sigma^{2}}e^{-\frac{(x-x_{0})^{2}+(y-y_{0})^{2}}{2\sigma^{2}}}$
将σ乘以一个比例系数k,等到一个新的平滑因子σ=k*σ，用它来平滑第1组第2层图像，结果图像作为第3层。
如此这般重复，最后得到L层图像，在同一组中，每一层图像的尺寸都是一样的，只是平滑系数不一样。它们对应的平滑系数分别为： $0，σ，kσ，k^2σ,k^3σ…k^{(L-2)}σ$ 。
将第1组倒数第三层图像作比例因子为2的降采样，得到的图像作为第2组的第1层，然后对第2组的第1层图像做平滑因子为σ的高斯平滑，得到第2组的第2层，就像步骤2中一样，如此得到第2组的L层图像，同组内它们的尺寸是一样的，对应的平滑系数分别为： $0，σ，kσ，k^2σ,k^3σ…k^{(L-2)}σ$ ，但是在尺寸方面第2组是第1组图像的一半。

这样反复执行，就可以得到一共O组，每组L层，共计O*L个图像，这些图像一起就构成了高斯金字塔，结构如下：

1. 生成高斯差分金字塔（DOG金字塔），尺度空间构建

差分金字塔，DOG（Difference of Gaussian）函数定义为不同尺度的高斯核与图像卷积结果之差，即：
$D(x,y,\sigma)=L(x,y,k\sigma)-L(x,y,\sigma)$

其实生成高斯金字塔的目的就是为了构建DOG金字塔。DOG金字塔的第1组第1层是由高斯金字塔的第1组第2层减第1组第1层得到的。以此类推，逐组逐层生成每一个差分图像，所有差分图像构成差分金字塔。概括为DOG金字塔的第 $o$ 组第 $l$ 层图像是有高斯金字塔的第 $o$ 组第 $l + 1$ 层减第 $o$ 组第 $l$ 层得到的。

DOG效果：

对图像进行归一化，可有很明显的看到差分图像所蕴含的特征，并且有一些特征是在不同模糊程度、不同尺度下都存在的，这些特征正是Sift所要提取的“稳定”特征。

2. 空间极值点检测（关键点的初步查探）

为了寻找DOG函数的极值点，每一个像素点要和它所有的相邻点比较，看其是否比它的图像域和尺度空间域的相邻点大或者小，如下图所示：

在二维图像空间，中心点与它 $3 * 3$ 邻域内的8个点做比较，在同一组内的尺度空间上，中心点和上下相邻的两层图像的 $2 * 9$ 个点作比较，如此可以保证检测到的关键点在尺度空间和二维图像空间上都是局部极值点。

3. 稳定关键点的精确定位

DOG值对噪声和边缘比较敏感，所以在第2步的尺度空间中检测到的局部极值点还要经过进一步的筛选，去除不稳定和错误检测出的极值点，另一点就是在构建高斯金字塔过程中采用了下采样的图像，在下采样图像中提取的极值点对应在原始图像中的确切位置，也是要在本步骤中解决的问题。

4. 稳定关键点方向信息分配

稳定的极值点是在不同尺度空间下提取的，这保证了关键点的尺度不变性。为关键点分配方向信息所要解决的问题是使得关键点对图像角度和旋转具有不变性。方向的分配是通过求每个极值点的梯度来实现的。
对于任一关键点，其梯度幅值表述为：

$m(x,y)=\sqrt{(L(x+1,y)-L(x-1,y))^2+(L(x,y+1)-L(x,y-1))^2}$

梯度方向为：

$\theta(x,y) = \tan^{-1}\left [ \frac{L(x,y+1)-L(x,y-1)}{L(x+1,y)-L(x-1,y)} \right ]$

分配给关键点的方向并不直接是关键点的梯度方向，而是按照一种梯度方向直方图的方式给出的。具体的方法是：计算以关键点为中心的邻域内所有点的梯度方向，当然梯度方向一定是在0~360°范围内，对这些梯度方向归一化到36个方向内，每个方向代表了10°的范围。然后累计落到每个方向内的关键点个数，以此生成梯度方向直方图。

将梯度方向直方图中纵坐标最大的项代表的方向分配给当前关键点作为主方向，若在梯度直方图中存在一个相当于主峰值80%能量的峰值，则将这个方向认为是关键点的辅方向。辅方向的设计可以增强匹配的鲁棒性，Lowe指出，大概有15%的关键点具有辅方向，而恰恰是这15%的关键点对稳定匹配起到关键作用。

5. 关键点描述

对关键点的描述是后续实现匹配的关键步骤，描述子不但包含关键点，也包括关键点周围对其有贡献的邻域点。描述的思路是：对关键点周围像素区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象表述。

如下图，对于 $2 * 2$ 块，每块的所有像素点做高斯加权，每块最终取8个方向，即可以生成 $2 * 2 * 8$ 维度的向量，以这 $2 * 2 * 8$ 维向量作为中心关键点的数学描述。

David G.Lowed的实验结果表明：对每个关键点，采用 $4 * 4 * 8$ 共128维向量的描述子进项关键点表征，综合效果最佳：

6. 特征点匹配

特征点的匹配是通过计算两组特征点的128维的关键点的欧式距离实现的。欧式距离越小，则相似度越高，当欧式距离小于设定的阈值时，可以判定为匹配成功。

使用SIFT进行特征匹配

基于python3.x + opencv3.x

import cv2
import numpy as np

def matchSift(img_path1,img_path2):
    img1 = cv2.imread(img_path1)
    img2 = cv2.imread(img_path2)
    gray1 = cv2.cvtColor(img1, cv2.COLOR_BGR2GRAY)
    gray2 = cv2.cvtColor(img2, cv2.COLOR_BGR2GRAY)

    sift = cv2.xfeatures2d.SIFT_create()
    kp1, des1 = sift.detectAndCompute(gray1, None)
    kp2, des2 = sift.detectAndCompute(gray2, None)
    img1 = cv2.drawKeypoints(img1,kp1,img1)
    img2 = cv2.drawKeypoints(img2,kp2,img2)  

    # Flann特征匹配
    FLANN_INDEX_KDTREE = 1
    index_params = dict(algorithm=FLANN_INDEX_KDTREE, trees=5)
    search_params = dict(checks=100)
    flann = cv2.FlannBasedMatcher(index_params, search_params)
    matches = flann.knnMatch(des1, des2, k=2)

    goodMatch = []
    for m, n in matches:
        if m.distance < 0.50*n.distance:
            goodMatch.append(m)
    # 增加一个维度
    goodMatch = np.expand_dims(goodMatch, 1)  
    img_out = cv2.drawMatchesKnn(img1, kp1, img2, kp2, goodMatch[:50], None, flags=2)
    cv2.imshow('image', img_out)
    cv2.waitKey(0)

img1 = 'C:/Users/Ivy/Desktop/1.jpg'
img2 = 'C:/Users/Ivy/Desktop/2.jpg'
matchSift(img1,img2)