阿雪的学习记录|图像特征基础

阿门阿前一棵小白菜

已于 2022-05-17 00:20:09 修改

阅读量700

点赞数 1

文章标签：学习计算机视觉图像处理

于 2022-05-14 23:58:12 首次发布

本文链接：https://blog.csdn.net/baixue1183/article/details/124775840

版权

这篇接昨天的尾巴（上巴x误），主要参考这三篇博客，接上文，就是说要看看特征点匹配要怎么匹，那在匹配之前得先找到特征点，金字塔光流法用的就是图像梯度，也就是和canny差不多的方法吧，还有别的方法来找到图像的其他特征吧。

图像特征，顾名思义，就是图像的特征（这可真是十年生死两茫茫，五年生死一茫茫啊）。第1部分都粘贴于百度百科，百度百科讲得太好了梳理得又很完整整齐。

1.图像特征

图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。[1]

颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。

纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。

形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。

所谓空间关系，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常空间位置信息可以分为两类：相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况，如上下左右关系等，后一种关系强调的是目标之间的距离大小以及方位。

1.1 颜色特征

一般颜色特征是基于像素点的特征，此时所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感，所以颜色特征不能很好地捕捉图像中对象的局部特征。另外，仅使用颜色特征查询时，如果数据库很大，常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法，其优点是不受图像旋转和平移变化的影响，进一步借助归一化还可不受图像尺度变化的影响，基缺点是没有表达出颜色空间分布的信息。

（1）颜色直方图
其优点在于：它能简单描述一幅图像中颜色的全局分布，即不同色彩在整幅图像中所占的比例，特别适用于描述那些难以自动分割的图像和不需要考虑物体空间位置的图像。其缺点在于：它无法描述图像中颜色的局部分布及每种色彩所处的空间位置，即无法描述图像中的某一具体的对象或物体。
最常用的颜色空间：RGB颜色空间、HSV颜色空间。
颜色直方图特征匹配方法：直方图相交法、距离法、中心距法、参考颜色表法、累加颜色直方图法。
（2）颜色集
颜色直方图法是一种全局颜色特征提取与匹配方法，无法区分局部颜色信息。颜色集是对颜色直方图的一种近似首先将图像从 RGB颜色空间转化成视觉均衡的颜色空间（如HSV 空间），并将颜色空间量化成若干个柄。然后，用色彩自动分割技术将图像分为若干区域，每个区域用量化颜色空间的某个颜色分量来索引，从而将图像表达为一个二进制的颜色索引集。在图像匹配中，比较不同图像颜色集之间的距离和色彩区域的空间关系
（3）颜色矩（颜色分布）
这种方法的数学基础在于：图像中任何的颜色分布均可以用它的矩来表示。此外，由于颜色分布信息主要集中在低阶矩中，因此，仅采用颜色的一阶矩（mean）、二阶矩（variance）和三阶矩（skewness）就足以表达图像的颜色分布。
（4）颜色聚合向量
其核心思想是：将属于直方图每一个柄的像素分成两部分，如果该柄内的某些像素所占据的连续区域的面积大于给定的阈值，则该区域内的像素作为聚合像素，否则作为非聚合像素。
（5）颜色相关图
颜色相关图（color correlogram）是图像颜色分布的另一种表达方式。这种特征不但刻画了某一种颜色的像素数量占整个图像的比例，还反映了不同颜色对之间的空间相关性。实验表明，颜色相关图比颜色直方图和颜色聚合向量具有更高的检索效率，特别是查询空间关系一致的图像。
如果考虑到任何颜色之间的相关性，颜色相关图会变得非常复杂和庞大(空间复杂度为O(N2d))。一种简化的变种是颜色自动相关图（color auto-correlogram），它仅仅考察具有相同颜色的像素间的空间关系，因此空间复杂度降到O(Nd)

1.2 纹理特征

在模式匹配中，这种区域性的特征具有较大的优越性，不会由于局部的偏差而无法匹配成功。作为一种统计特征，纹理特征常具有旋转不变性，并且对于噪声有较强的抵抗能力。但是，纹理特征也有其缺点，一个很明显的缺点是当图像的分辨率变化的时候，所计算出来的纹理可能会有较大偏差。另外，由于有可能受到光照、反射情况的影响，从2-D图像中反映出来的纹理不一定是3-D物体表面真实的纹理。
例如，水中的倒影，光滑的金属面互相反射造成的影响等都会导致纹理的变化。由于这些不是物体本身的特性，因而将纹理信息应用于检索时，有时这些虚假的纹理会对检索造成“误导”。
在检索具有粗细、疏密等方面较大差别的纹理图像时，利用纹理特征是一种有效的方法。但当纹理之间的粗细、疏密等易于分辨的信息之间相差不大的时候，通常的纹理特征很难准确地反映出人的视觉感觉不同的纹理之间的差别。

（1）统计方法：
统计方法的典型代表是一种称为灰度共生矩阵GLCM的纹理特征分析方法Gotlieb 和 Kreyszig 等人在研究共生矩阵中各种统计特征基础上，通过实验，得出灰度共生矩阵的四个关键特征：能量、惯量、熵和相关性。统计方法中另一种典型方法，则是从图像的自相关函数（即图像的能量谱函数）提取纹理特征，即通过对图像的能量谱函数的计算，提取纹理的粗细度及方向性等特征参数。
（2）几何方法：
所谓几何法，是建立在纹理基元（基本的纹理元素）理论基础上的一种纹理特征分析方法。纹理基元理论认为，复杂的纹理可以由若干简单的纹理基元以一定的有规律的形式重复排列构成。
在几何法中，比较有影响的算法有两种：Voronio 棋盘格特征法和结构法。
（3）模型法：
模型法以图像的构造模型为基础，采用模型的参数作为纹理特征。典型的方法是随机场CRF模型法，如马尔可夫（Markov）随机场（MRF）模型法和 Gibbs 随机场模型法。
（4）信号处理法
纹理特征的提取与匹配主要有：灰度共生矩阵、Tamura 纹理特征、自回归纹理模型、小波变换等。
灰度共生矩阵特征提取与匹配主要依赖于能量、惯量、熵和相关性四个参数。Tamura 纹理特征基于人类对纹理的视觉感知心理学研究，提出6种属性，即：粗糙度、对比度、方向度、线像度、规整度和粗略度。自回归纹理模型（simultaneous auto-regressive, SAR）是马尔可夫随机场（MRF）模型的一种应用实例。

1.3 形状特征

各种基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索，但它们也有一些共同的问题，包括：
①目前基于形状的检索方法还缺乏比较完善的数学模型；
②如果目标有变形时检索结果往往不太可靠；
③许多形状特征仅描述了目标局部的性质，要全面描述目标常对计算时间和存储量有较高的要求；
④许多形状特征所反映的目标形状信息与人的直观感觉不完全一致，或者说，特征空间的相似性与人视觉系统感受到的相似性有差别。
另外，从 2-D 图像中表现的 3-D 物体实际上只是物体在空间某一平面的投影，从 2-D 图像中反映出来的形状常不是 3-D 物体真实的形状，由于视点的变化，可能会产生各种失真。

（1）边界特征法：
该方法通过对边界特征的描述来获取图像的形状参数。其中Hough 变换检测平行直线方法和边界方向直方图方法是经典方法。Hough 变换是利用图像全局特性而将边缘像素连接起来组成区域封闭边界的一种方法，其基本思想是点—线的对偶性；边界方向直方图法首先微分图像求得图像边缘，然后，做出关于边缘大小和方向的直方图，通常的方法是构造图像灰度梯度方向矩阵（雪：就是金字塔那用的方法）。
（2）傅里叶形状描述符法：
傅里叶形状描述符(Fourier shape deors)基本思想是用物体边界的傅里叶变换作为形状描述，利用区域边界的封闭性和周期性，将二维问题转化为一维问题。
由边界点导出三种形状表达，分别是曲率函数、质心距离、复坐标函数。
（3）几何参数法：
形状的表达和匹配采用更为简单的区域特征描述方法，例如采用有关形状定量测度（如矩、面积、周长等）的形状参数法（shape factor）。在 QBIC 系统中，便是利用圆度、偏心率、主轴方向和代数不变矩等几何参数，进行基于形状特征的图像检索。
需要说明的是，形状参数的提取，必须以图像处理及图像分割为前提，参数的准确性必然受到分割效果的影响，对分割效果很差的图像，形状参数甚至无法提取。
（4）形状不变矩法：
利用目标所占区域的矩作为形状描述参数。
（5）其它方法
近年来，在形状的表示和匹配方面的工作还包括有限元法（Finite Element Method 或 FEM）、旋转函数（Turning ）和小波描述符（Wavelet Deor）等方法。

1.4 空间关系特征

显而易见，由绝对空间位置可推出相对空间位置，但表达相对空间位置信息常比较简单。
空间关系特征的使用可加强对图像内容的描述区分能力，但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。另外，实际应用中，仅仅利用空间信息往往是不够的，不能有效准确地表达场景信息。为了检索，除使用空间关系特征外，还需要其它特征来配合。

提取图像空间关系特征可以有两种方法：一种方法是首先对图像进行自动分割，划分出图像中所包含的对象或颜色区域，然后根据这些区域提取图像特征，并建立索引；另一种方法则简单地将图像均匀地划分为若干规则子块，然后对每个图像子块提取特征，并建立索引。
示例
姿态估计问题：确定某一三维目标物体的方位指向问题。姿态估计在机器人视觉、动作跟踪和单照相机定标等很多领域都有应用。
在不同领域用于姿态估计的传感器是不一样的，在这里主要讲基于视觉的姿态估计。
基于视觉的姿态估计根据使用的摄像机数目又可分为单目视觉姿态估计和多目视觉姿态估计。根据算法的不同又可分为基于模型的姿态估计和基于学习的姿态估计。
（1）基于模型的姿态估计方法
基于模型的方法通常利用物体的几何关系或者物体的特征点来估计。其基本思想是利用某种几何模型或结构来表示物体的结构和形状，并通过提取某些物体特征，在模型和图像之间建立起对应关系，然后通过几何或者其它方法实现物体空间姿态的估计。这里所使用的模型既可能是简单的几何形体，如平面、圆柱，也可能是某种几何结构，也可能是通过激光扫描或其它方法获得的三维模型。
基于模型的姿态估计方法是通过比对真实图像和合成图像，进行相似度计算更新物体姿态。目前基于模型的方法为了避免在全局状态空间中进行优化搜索，一般都将优化问题先降解成多个局部特征的匹配问题，非常依赖于局部特征的准确检测（雪：雀食！这就是为什么我现在还妹发论文而是在这重新学习基础理论……）。当噪声较大无法提取准确的局部特征的时候，该方法的鲁棒性受到很大影响（雪：就没有鲁棒性！）。
（2）基于学习的姿态估计方法
基于学习的方法借助于机器学习(machine learning)方法，从事先获取的不同姿态下的训练样本中学习二维观测与三维姿态之间的对应关系，并将学习得到的决策规则或回归函数应用于样本，所得结果作为对样本的姿态估计。基于学习的方法一般采用全局观测特征，不需检测或识别物体的局部特征，具有较好的鲁棒性。其缺点是由于无法获取在高维空间中进行连续估计所需要的密集采样，因此无法保证姿态估计的精度与连续性。
基于学习的姿态估计方法源于姿态识别方法的思想。姿态识别需要预先定义多个姿态类别，每个类别包含了一定的姿态范围；然后为每个姿态类别标注若干训练样本，通过模式分类的方法训练姿态分类器以实现姿态识别。
这一类方法并不需要对物体进行建模，一般通过图像的全局特征进行匹配分析，可以有效的避免局部特征方法在复杂姿态和遮挡关系情况下出现的特征匹配歧义性问题。然而姿态识别方法只能将姿态划分到事先定义的几个姿态类别中，并不能对姿态进行连续的精确的估计。
基于学习的方法可以保证算法具有较好的鲁棒性。然而这一类方法的姿态估计精度很大程度依赖于训练的充分程度。要想比较精确地得到二维观测与三维姿态之间的对应关系，就必须获取足够密集的样本来学习决策规则和回归函数。而一般来说所需要样本的数量是随状态空间的维度指数级增加的，对于高维状态空间，事实上不可能获取进行精确估计所需要的密集采样。因此，无法得到密集采样而难以保证估计的精度与连续性，是基于学习的姿态估计方法无法克服的根本困难。
和姿态识别等典型的模式分类问题不同的是，姿态估计输出的是一个高维的姿态向量，而不是某个类别的类标。因此这一类方法需要学习的是一个从高维观测向量到高维姿态向量的映射，目前这在机器学习领域中还是一个非常困难的问题。
（所以说菜鸡如我居然要解决这么困难的一个问题，我导还真是高估了我的能力啊临表涕零了）

2.特征提取

2.1 特征提取是啥

特征提取的主要目的是降维。特征抽取的主要思想是将原始样本投影到一个低维特征空间，得到最能反应样本本质或进行样本区分的低维样本特征。总的来讲有两种方法，主成分提取和kernel方法，主成分提取是已知了一些特征，把它们给压缩成更少的特征，比如红的黄的紫的绿的，我给它压缩变成了冷色系和暖色系两个特征；kernel是将数据特征投影到超平面上，就是新增加了一个维度，在这个超平面上我找到一个方式把数据们按照类内间距最小，类间间距最大给它清楚划分，但问题在于这个超平面上划分依据不明，就比如我完美的将一组点划分成了两组，但分完之后我不知道分了个啥，为啥就成了两组。

2.2 一些常见的特征提取方法

SIFT：Scale-Invariant Feature Transform，即尺度不变特征变换。它是在不同的尺度空间上查找关键点(特征点)，并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出、不会因光照、仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。
SURF：Speeded Up Robust Features，加速稳健特征，是一种稳健的图像识别和描述算法。它是SIFT的高效变种，也是提取尺度不变特征，算法步骤与SIFT算法大致相同，但采用的方法不一样，要比SIFT算法更高效（正如其名）。SURF使用海森(Hesseian)矩阵的行列式值作特征点检测并用积分图加速运算；SURF 的描述子基于 2D 离散小波变换响应并且有效地利用了积分图。
HOG：方向梯度直方图（Histogram of Oriented Gradient, HOG），是计算机视觉领域中用于目标检测的一种特征描述子。其通过计算图像部分区域的梯度信息，并进行统计梯度信息的直方图来构成特征向量。
Haar：哈尔特征（Haar-like features）是用于物体识别的一种数字图像特征。它们因为与哈尔小波转换极为相似而得名，是第一种即时的人脸检测运算。
LBP：局部二值模式(Local Binary Patter, LBP)是一种用来描述图像局部纹理特征的算子，LBP特征具有灰度不变性和旋转不变性等显著优点，它将图像中的各个像素与其邻域像素值进行比较，将结果保存为二进制数，并将得到的二进制比特串作为中心像素的编码值，也就是LBP特征值。LBP提供了一种衡量像素间邻域关系的特征模式，因此可以有效地提取图像的局部特征，而且由于其计算简单，可用于基于纹理分类的实时应用场景，例如目标检测、人脸识别等。
KAZE：KAZE特征检测是在图像域中进行非线性扩散处理的过程，该方法比SIFT等方法识别到更清晰的边界，但计算复杂度很大，很慢。
AKAZE：基于KAZE，是KAZE的加速版本。
FAST：人如其名，就是一个快，FAST特征检测算法来源于corner的定义，基于特征点周围的像素灰度值。检测候选特征点周围一圈的像素值，如果候选区域内像素点足够多且与候选点灰度值差值足够大，则认为一个特征点。所以思路是：构建差值窗口，阈值选择（点足够多），所以挺菜的，我觉得基于阈值需要自己调节设定的方法都挺菜的。
BRIEF：Binary Robust Independent Elementary Features，（他们都好会取名字啊真的）。BRIEF 算法生成二进制的特征描述符最大优点在于能非常高效地存储在内存中，并且可以快速计算，且使 BRIEF 能够在计算资源非常有限的设备（例如智能手机）上运行。由于该方法是将图片进行二进制描述，所以没有缩放不变性和旋转不变性，所以可以做出的改进分别为：构建图像金字塔、增加关键点到强度形心的向量，即以下BRISK和ORB方法。
BRISK：是BRIEF描述子的一种改进，相比于BRIEF特征，它具有旋转不变性、尺度不变性和对噪声的鲁棒性。
ORB：Oriented FAST and Rotated BRIEF，该特征检测算法是在著名的FAST特征检测和BRIEF特征描述子的基础上提出来的，其运行时间远远优于SIFT和SURF，可应用于实时性特征检测。ORB特征检测具有尺度和旋转不变性，对于噪声及其透视变换也具有不变性，良好的性能使得利用ORB在进行特征描述时的应用场景十分广泛。ORB特征检测主要分为以下两个步骤：方向FAST特征点检测；BRIEF特征描述。