SIFT特征详解

最新推荐文章于 2024-05-07 10:59:23 发布

BrookIcv

最新推荐文章于 2024-05-07 10:59:23 发布

阅读量2.3k

点赞数 2

分类专栏： DIP 文章标签： sift

本文链接：https://blog.csdn.net/BrookIcv/article/details/48719149

版权

1.SIFT概述

SIFT的全称是Scale Invariant Feature Transform，尺度不变特征变换，由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性，是一种非常稳定的局部特征。

1.1 SIFT算法具的特点

图像的局部特征，对旋转、尺度缩放、亮度变化保持不变，对视角变化、仿射变换、噪声也保持一定程度的稳定性。
独特性好，信息量丰富，适用于海量特征库进行快速、准确的匹配。
多量性，即使是很少几个物体也可以产生大量的SIFT特征
高速性，经优化的SIFT匹配算法甚至可以达到实时性
扩招性，可以很方便的与其他的特征向量进行联合。

1.2 SIFT特征检测的步骤

有4个主要步骤
1. 尺度空间的极值检测 搜索所有尺度空间上的图像，通过高斯微分函数来识别潜在的对尺度和选择不变的兴趣点。
2. 特征点定位 在每个候选的位置上，通过一个拟合精细模型来确定位置尺度，关键点的选取依据他们的稳定程度。
3. 特征方向赋值 基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向，后续的所有操作都是对于关键点的方向、尺度和位置进行变换，从而提供这些特征的不变性。
4. 特征点描述 在每个特征点周围的邻域内，在选定的尺度上测量图像的局部梯度，这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变换。

2. 尺度空间

在一定的范围内，无论物体是大还是小，人眼都可以分辨出来。然而计算机要有相同的能力却不是那么的容易，在未知的场景中，计算机视觉并不能提供物体的尺度大小，其中的一种方法是把物体不同尺度下的图像都提供给机器，让机器能够对物体在不同的尺度下有一个统一的认知。在建立统一认知的过程中，要考虑的就是在图像在不同的尺度下都存在的特征点。

2.1 多分辨率图像金字塔

在早期图像的多尺度通常使用图像金字塔表示形式。图像金字塔是同一图像在不同的分辨率下得到的一组结果，其生成过程一般包括两个步骤：
1. 对原始图像进行平滑
2. 对处理后的图像进行降采样（通常是水平、垂直方向的1/2）
降采样后得到一系列不断尺寸缩小的图像。显然，一个传统的金字塔中，每一层的图像是其上一层图像长、高的各一半。多分辨率的图像金字塔虽然生成简单，但其本质是降采样，图像的局部特征则难以保持，也就是无法保持特征的尺度不变性。

2.2 高斯尺度空间

我们还可以通过图像的模糊程度来模拟人在距离物体由远到近时物体在视网膜上成像过程，距离物体越近其尺寸越大图像也越模糊，这就是高斯尺度空间，使用不同的参数模糊图像（分辨率不变），是尺度空间的另一种表现形式。
我们知道图像和高斯函数进行卷积运算能够对图像进行模糊，使用不同的“高斯核”可得到不同模糊程度的图像。一副图像其高斯尺度空间可由其和不同的高斯卷积得到：

L (x, y, σ) = G (x, y, σ) * I (x, y)

$L(x,y,\sigma) = G(x,y,\sigma) * I(x,y)$
其中，

G(x,y,σ)是高斯核函数。 $G(x,y,\sigma)是高斯核函数。$

G (x, y, σ) = 1 2 π σ 2 e x 2 + y 2 2 σ 2

$G(x,y,\sigma) = \frac{1}{2 \pi \sigma ^2} e ^ {\frac{x^2 +y^2}{2 \sigma^2}}$

σ $\sigma$ 称为尺度空间因子，它是高斯正态分布的标准差，反映了图像被模糊的程度，其值越大图像越模糊，对应的尺度也就越大。

L(x,y,σ) $L(x,y,\sigma)$ 代表着图像的高斯尺度空间。
构建尺度空间的目的是为了检测出在不同的尺度下都存在的特征点，而检测特征点较好的算子是

Δ2G $\Delta^2G$ (高斯拉普拉斯,LoG）,

Δ 2 = \partial 2 \partial x 2 + \partial 2 \partial y 2

$\Delta ^2 = \frac{\partial ^2}{\partial x^2} + \frac{\partial ^2}{\partial y^2}$
使用LoG虽然能较好的检测到图像中的特征点，但是其运算量过大，通常可使用 DoG（差分高斯，Difference of Gaussina）来近似计算LoG[Marr and Hidreth]。
设

k $k$ 为相邻两个高斯尺度空间的比例因子，则 DoG的定义：

D (x, y, σ) = [G (x, y, k σ) - G (x, y, σ)] * I (x, y) = L (x, y, k σ) - L (x, y, σ)

$D(x,y,\sigma) = [G(x,y,k\sigma) - G(x,y,\sigma)] \ast I(x,y) \\ = L(x,y,k\sigma) - L(x,y,\sigma)$
其中，

L(x,y,σ) $L(x,y,\sigma)$ 是图像的高斯尺度空间。
从上式可以知道，将相邻的两个高斯空间的图像相减就得到了DoG的响应图像。为了得到DoG图像，先要构建高斯尺度空间，而高斯的尺度空间可以在图像金字塔降采样的基础上加上高斯滤波得到，也就是对图像金字塔的每层图像使用不同的参数

σ $\sigma$ 进行高斯模糊，使每层金字塔有多张高斯模糊过的图像。降采样时，金字塔上边一组图像的第一张是由其下面一组图像倒数第三张降采样得到。
易知，高斯金字塔有多组，每组又有多层。一组中的多个层之间的尺度是不一样的（也就是使用的高斯参数

σ $\sigma$ 是不同的），相邻两层之间的尺度相差一个比例因子

k $k$ 。如果每组有

S $S$ 层，则

k=21S $k = 2 ^{\frac{1}{S}}$ 。上一组图像的最底层图像是由下一组中尺度为

2σ $2\sigma$ 的图像进行因子为2的降采样得到的（高斯金字塔先从底层建立）。高斯金字塔构建完成后，将相邻的高斯金字塔相减就得到了DoG金字塔。
高斯金字塔的组数一般是

o = [log 2 m i n (m, n)] - a

$o = [\log _2min(m,n)] - a$

o $o$ 表示高斯金字塔的层数，m，n分别是图像的行和列。减去的系数

a $a$ 可以在

0−log2min(m,n) $0-\log_2min(m,n)$ 之间的任意值，和具体需要的金字塔的顶层图像的大小有关。
高斯模糊参数

σ $\sigma$ （尺度空间），可由下面关系式得到

σ (o, s) = σ 0 \cdot 2 o + s

最低0.47元/天解锁文章

BrookIcv

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
SIFT特征详解

1.SIFT概述SIFT的全称是Scale Invariant Feature Transform，尺度不变特征变换，由加拿大教授David G.Lowe提出的。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性，是一种非常稳定的局部特征。1.1 SIFT算法具的特点图像的局部特征，对旋转、尺度缩放、亮度变化保持不变，对视角变化、仿射变换、噪声也保持一定程度的稳定性。独特性好，信息量丰富，适用于
复制链接

扫一扫