【数字图像处理第11章——表示与描述】_图像处理形状描述子-CSDN博客

本文链接：https://blog.csdn.net/m0_53694086/article/details/140415302

11.表示与描述

当我们对一幅图像分割成区域后，需要对其进行表示和描述，有两种表示区域的方式
- 当我们对形状特征感兴趣时，可以采用外部特征（区域的边界）表示区域
- 当我们主要注意力集中于区域属性时，可以采用内部特征（组成区域的像素）表示区域

11.2颜色特征

颜色特征是一种全局特征,描述了图像或图像区域所对应的景物的表面性质。
一般颜色特征是基于像素点的特征，所有属于图像或图像区域的像素都有各自的贡献。
颜色特征是图像检索和识别应用中最为广泛的视觉特征，与其他视觉特征相比，它对图像的尺寸、方向、视角的依赖性较弱，因此，具有较高的稳定性。

灰度特征

图像灰度特征可以在图像的某些特定的像素点上或其邻域内测定，也可以在某个区域内测定。以(i,j)为中心的(2M+1) ×(2N+1)邻域内的平均灰度为:
$f(i,j)=\frac{1}{(2M+1)(2N+1)}\sum_{x=-M}^M\sum_{y=-N}^Nf(i+x,j+y)$
除了灰度均值之外，在有些情况下，还可能要用到区域中的灰度最大值、最小值、中值、方差等。

直方图特征

设图像f的像素总数为n，灰度等级数为L，灰度为k的像素全图共有
$n_k$
个，那么:
$h_k=\frac{n_k}{n},k=0,1,…,L-1\\ h_k称为f的灰度直方图$
彩色图像可以定义为它的各个颜色分量的直方图。如果是RGB模型，可以分别计算R、G、B分量的直方图;如果是HSI模型，可以分别计算H、S、I分量的直方图。

图像灰度直方图可以认为是图像灰度概率密度的估计，可以由直方图产生下列特征。
- （1）平均值
  $\overline f=\sum_{k=0}^{L-1}kh_k$
- （2）方差
  $\sigma_f^2=\sum_{k=0}^{L-1}(k-\overline f)^2h_k$
- （3）能量
  $f_N=\sum_{k=0}^{L-1}(h_k)^2$
- （4）熵
  $f_E=-\sum_{k=0}^{L-1}h_klog_2{h_k}$

颜色矩

图像中任何颜色的分布均可以用它的矩来表示,颜色矩可以直接在RGB空间计算。
由于颜色分布信息主要集中在低阶矩，因此，仅采用颜色的一阶矩、二阶矩和三阶矩就足以表达图像的颜色分布。

上述三种颜色矩的定义分别为:
$\mu_i=\frac{1}{n}\sum_{j=1}^np_{ij}$

$\sigma_i=[\frac{1}{n}\sum_{j=1}^n(p_{ij}-\mu_i)^2]^\frac{1}{2}$

$s_i=[\frac{1}{n}\sum_{j=1}^n(p_{ij}-\mu_i)^3]^\frac{1}{3}$

$p_{ij}是第i个颜色分量的第j个像素的值，n是图像的像素点的个数$

事实上，一阶矩定义了每个颜色分量的平均值，二阶矩和三阶矩分别定义了颜色分量的方差和偏斜度。

11.3纹理特征

纹理是图像描述的重要内容，纹理特征描述图像或图像区域所对应景物的表面性质。类似于布纹、草地、砖砌墙面等重复性结构称为纹理。
一般来说，纹理是对图像的像素灰度级在空间上的分布模式的描述,反映物品的质地，如粗糙度、光滑性、颗粒度、随机性和规范性等。

在这里插入图片描述

纹理的标志有三要素:
- 一是某种局部的序列性，该序列在更大的区域内不断重复;
- 二是序列是由基本部分非随机排列组成的;
- 三是各部分大致都是均匀的统一体，纹理区域内任何地方都有大致相同的尺寸结构。
纹理图像在很大范围内没有重大细节变化，在这些区域内图像往往显示出重复性结构。
纹理可分为人工纹理和天然纹理。
- 人工纹理是由符号排列组成的，这些符号可以是线条、点、字母、数字等。
- 自然纹理是具有重复排列现象的自然景象，如砖墙、种子、森林、草地之类的照片。
与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。
在图像识别中，此类区域性的特征具有一定的优势，可以避免由于局部的偏差造成识别错误。
作为一种统计特征,纹理特征一般具有旋转不变性，并且对于噪声有较强的抵抗能力。
常用的纹理特征包括以下几种:
- 统计法：统计法的典型代表中的一种是灰度共生矩阵的纹理特征分析方法，可以由灰度共生矩阵得到能量、惯性、嫡和相关性四个参数。
- 模型法：模型法以图像的构造模型为基础，采用模型的参数作为纹理特征。典型的方法是随机场模型法，例如马尔可夫随机场模型和Gibbs随机场模型法。

灰度差分统计

对于给定的灰度图像
${f(i,j);i=0,1,2，..,M-1; j=0，1,2,...,N-1\}$
和取较小的整数△i、△j，求差分图像:
$g (i, j) = f (i, j) - f (i + △ i, j + △ j)$
g称为灰度差分。设灰度差分的所有可能取值共有m级，求出灰度差分图像的归一化直方图
${ h(k),k=0,1,2，...,m-1 \}$
,可以由灰度差分直方图得到二次统计量，作为纹理特征,反映图像的纹理细致程度。

常用的灰度差分统计量特征有
- (1)平均值
  $mean=\frac{1}{m}\sum_iih_g(i)$
- (2）对比度
  $con=\sum_ii^2h_g(i)$
- (3）角度方向二阶矩
  $asm=\sum_i[h_g(i)]^2$
- (4）熵
  $ent=-\sum h_g(i)log_2h_g(i)$

灰度共生矩阵

仅使用像素的灰度值计算得到的纹理度量不携带像素彼此之间的相对位置的信息。在描述纹理时将像素的位置信息合并到纹理分析过程中的一种方法是不仅要考虑灰度的分布，还要考虑图像中像素的相对位置。
令Q是定义两个像素彼此相对位置的一个算子并考虑一幅具有L个可能灰度级的图像f，令G为一个矩阵，
$其元素g_{ij}是灰度为z_i和z_j的像素$
对出现在f中由Q所指定的位置处的次数,其中1≤i,j ≤ L。按这种方法形成的矩阵称为灰度共生矩阵。
生成步骤
- 算子Q一般由方向θ和距离d组成。对于给定的方向和距离，在方向为θ的直线上，一个像素灰度为i，另一个与其相距为d的像素的灰度为j的点对出现的次数作为这个矩阵的第（i,j）元素的值。
- 对于一系列不同的d和θ，就有一系列不同的灰度共生矩阵。由于计算量的原因，一般d只取少数几个值，而θ取0°、45°、90°、135°。
- 下图给出了一个如何用L=8和由d=1，θ=0°定义的位置算子Q构造共生矩阵的例子。左侧的阵列是所考虑的小图像，右侧的阵列是矩阵G。我们看到，G的元素（1,1）是1，因为在f中，值为1的像素的右侧也为1的像素仅出现了1次。类似地G的元素（6,2）是3，因为在f中，值为6的像素的右侧为值为2的像素出现了3次。按照这种方式，可计算出G的其他元素
- 所以图像中的灰度级决定了共生矩阵的大小，如果一幅图像有256个灰度级，那么共生矩阵的大小为256×256，为了减少计算负担，经常会将灰度级压缩，比如每32个灰度级算作1个灰度级就行。
（1）能量
$N_1=\sum_i\sum_jp(i,j)^3$
（2）对比度
$N_2=\sum_i\sum_j(i-j)^2p(i,j)^2$
（3）嫡
$N_3=-\sum_i\sum_jp(i,j)lgp(i,j)$
（4）均匀度
$N_4=\sum_i\sum_j\frac{1}{1+(i-j)^2}p(i,j)$
（5）相关
$N_5=\frac{\sum\sum(i-\overline x)(i-\overline y)p(i,j)}{\sigma_x\sigma_y}$

$\overline x=\sum_ii\sum_jp(i,j)\\ \overline y=\sum_jj\sum_ip(i,j)\\ \sigma_x^2=\sum_i(i-\overline x)^2\sum_jp(i,j)\\ \sigma_y^2=\sum_j(j-\overline y)^2\sum_ip(i,j)\\$

在这里插入图片描述

频谱特征

傅里叶频谱是一种理想的可用于描绘周期或近似周期的二维图像模式的方向性的方法。频谱特征正是基于傅里叶频谱的一种纹理描述。
全局纹理模式在空域中很难检测出来，但是转换到频率域中则很容易分辨出来。因此，频谱纹理对区分周期模式或非周期模式及周期模式之间的不同十分有效。
通常，全局纹理模式对应于傅里叶频谱中能量十分集中的区域，即峰值突起处。
实现步骤
- 在实际应用中，通常会把频谱转化到极坐标中用函数S(r,θ)描述，从而简化表达。其中,S是频谱函数,r和θ是坐标系中的变量。将这个二元函数通过固定其中一个变量转化一元函数，例如，对每一个方向θ，可以把S(r,θ)看成是一个一元函数
  $S_θ(r)$
  同样地，对每一个频率r，可用一元函数
  $S_r(θ)$
  来表示。
- 对给定的方向θ ，分析其一元函数
  $S_θ(r)$
  ,可以得到频谱在从原点出发的某个放射方向上的行为特征。而对某个给定的频率r，对其一元函数
  $s_r(θ)$
  进行分析，将会获取频谱在以原点为中心的圆上的行为特征。
- 分别对上述两个函数按照其下标求和，则会获得关于区域纹理的全局描述:
  $S(r)=\sum_{\theta=0}^\pi S_{\theta}(r)\\ (因为频谱图关于原点对称，所以只需要提取0到\pi)\\ s(\theta)=\sum_{r=1}^{R_0}S_r(\theta)\\ R_0是以原点为中心的圆的半径$
  S®表示离圆心距离为r的图像频谱值的总和，s(θ)表示旋转角度为θ时图像频谱值的总和。
下图(a)显示了随机分布的火柴图像，图(b)显示了按周期排列后的火柴图像。图©和(d)显示了相应的傅里叶频谱。两个傅里叶频谱中在二维方向上延伸的四边形周期能量脉冲归因于火柴的其余部分的粗糙背景的周期纹理。图©中频谱的其他占支配地位的分量是由图(a)的随机方向引起的。图(d中与背景无关的主要能量是沿水平轴分布的，它对应于图(b)中的较强垂直边缘。

下图(e)和(f)是随机排列火柴的S®曲线和 S(O)曲线,类似地，下图(g)和(h)是随机排列火柴的S®曲线和S(O)曲线。随机排列火柴的S®曲线表明没有较强的周期分量。相反，有序排列火柴的S®曲线在r=15附近显示了一个较强的尖峰，而在r=25附近显示了一个较小的尖峰，它们分别对应于图(b)中亮区域和暗区域的水平重复周期。类似地，图(c）中能量脉冲的随机特性，在图（f)所示的S(0)曲线中十分明显。相比之下，图(h)所示图形在靠近原点、90和180°的区域显示了很强的能量分量。这与图(d）中频谱的能量分布是一致的。

11.4 边界特征

边界描述主要借助于区域的外部特征即区域的边界来描述区域。当希望关注区域的形状特征时，一般会采用这种描述方式,我们可以选定某种预定的方案对边界进行表达，再对边界特征进行描述。
如果一个目标区域边界上的点的已被确定时，就可以利用这些边界点来区分不同区域的形状。这样既可以节省存储信息，又可以准确地确定物体。

链码

在数字图像中，边界或曲线是由一些列离散的像素点组成的，其最简单的表达方法是由美国学者佛雷蔓（Freeman)提出的链码方法。
链码用于表示由顺次连接的具有指定长度和方向的直线段组成的边界线。在典型的情况下，这种表示方法基子线段的4或8连接。每一段的方百徳用数字编号方法进行编码，如下图所示。

在这里插入图片描述

获取或处理数字图像经常使用在x和y方向上相同的网格格式。所以链码可以通过以顺时针方向沿着边界线,并且对连接每对像素的线段赋予一个方向生成。
但是有两个原因使我们通常无法采用这种方法:
- ①得到的链码往往太长
- ②噪声或是边界线段的缺陷都会在边界上产生干扰，任何沿着边界的小干扰都会使编码发生变化，使其无法和边界形状相一致。
经常用于解决上述这些问题的一种方法是选取一个较大的网格间距来对边界重取样。如下图(a）所示。然后，当边界穿过网格时，将一个边界点赋给大网格的一个节点，具体取决于原始边界与该节点的接近程度，如图(b）所示。然后，按这种方法得到的重取样边界可由一个4链码或8链码表示。图(c）显示了由4方向链码表示的粗略边界点，图(d）显示了由8方向链码表示的粗略边界点。
- 图©中的起始点(任意的)是在顶部左方的点，链码是0766…12。
- 编码表达方法的精确度依赖于取样网格的大小。
- 边界的链码依赖于起始点。为了确定链码所表示的曲线在图像中的位置，并能由链码准确的重建曲线，则需要标出起点的坐标。
- 但是当用链码来描述闭合边界时，由于起点和终点重合，因此往往不关心起点的具体位置，起点位置的变化只引起链码的循环位移。为了解决这个问题，必须将链码进行归一化处理。
归一化处理
- 给定一个从任意点开始而产生的链码，可把它看作一个由各个方向数构成自然数，将这些方向数依一个方向循环以使它们所构成的自然数的值最小，将转换后所对应的链码起点作为这个边界的归一化链码的起点。
- 例如，4向链码10103322的归一化链码为01033221。
- 但是如果目标进行旋转，链码又会发生变化，所以需要对链码进行一阶差分来重新构造1个序列
链码的差分
- 例如，4向链码10103322的一阶差分是31330303。如果把编码看做循环序列，则差分的第一个元素是通过链的最后一个成员放在第一个成员之前计算得到的。此时的结果是33133030。

基于分裂技术的多边形近似

由于噪声以及采样等的影响,边界有许多较小的不规则处，这些不规则处常对链码表达产生较明显的干扰影响。
一种抗干扰性能更好，更节省表达所需数据量的方法就是用多边形去近似逼近边界。
多边形是一系列线段的封闭集合，它可用来逼近大多数曲线到任意的精度。
实践中，多边形表达的目的是用尽可能少的线段来代表边界并保持边界的基本形状,这样就可以用较少的数据和简洁的形式来表达和描述边界。
采用分裂技术得到的多边形可以近似表达和描述边界。
例如，下图(a）显示了一个物体的边界，图(b）显示了该边界关于其最远点的细分。标记为c的点是顶部边界线段到直线ab的垂直距离最远的点。类似地，点d是底部线段上的最远点。图(c）显示了使用分裂过程的最后结果，所用阈值为直线ab的长度的0.25倍。

在这里插入图片描述

标记图

标记图是边界的一维函数表示，它可以使用各种方式来生成。一种最简单的方式是以角度的函数的形式画出质心到边界的距离，如下图所示。在图(b)中 r(θ)中，标记图由重复出现的模式
$\pi/4<θ≤\pi/2和r(θ)=Asecθ,0≤θ≤\pi/4$
在这里插入图片描述

下图(a）和(b)显示了两个二值物体，图(c）和 (d）是它们的边界。图(e）和（f)中相应的r(θ)标记图以增量在0到360的范围内变化。标记图中突出峰值的数量足以区分两个物体的形状。

简单的边界描述子特征

边界长度:边界长度是边界所包围的区域轮廓的周长。对4连通边界，其长度为边界上像素点个数;对8连通边界来说,其长度为垂直分量和水平分量的数量加上对角分量的√2倍，可给出曲线的准确长度。
边界直径:边界的直径定义为;
$Diam(B)=max_{i,j}[D(p_i,p_j)]\\ D是距离的度量，p_i和p_j是边界上的点$
长轴:连接直径的两个端点的直线段称为边界的长轴。
短轴:与长轴垂直的直线段称为边界的短轴。
离心率:长轴和短轴的比值称为边界的离心率。
曲率:定义为斜率的变化率。一般来说，在数字化边界上找到某一点曲率的可靠量度是困难的，因为这种边界都较为“粗糙”。有时使用相邻边界线段的斜率差作为线段交点处的曲率描述。由于我们是顺时针方向沿着边界运动，当顶点p的斜率变化量为非负的时侯，称这一点属于凸线段;否则，称p属于凹线段。一点的曲率描述可以通过使用斜率变化的范围进一步精确化。例如，如果斜率的变化小于10°，可认为它属于近似直线的线段。如果大于90°，则属于拐点。

形状数描述子特征

形状数是基于链码的一种边界形状描述。根据链码的起点位置不同，一个用链码表达的边界可以有多个一阶差分。
一个边界的形状数是这些差分中其值最小的一个序列。也就是说，形状数是值最小的链码的差分码。
每个形状数都有一个对应的阶，这里的阶定义为形状数序列的长度，即码的个数。

在这里插入图片描述

在实际中对已给边界由给定阶计算边界形状数有以下几个步骤:
- ① 从所有满足给定阶要求的矩形中选取其长短轴比例最接近如下图(a）所示的边界的矩形，如图(b）所示;
- ② 根据给定阶将选出的矩形划分为图(c）所示的多个等边正方形;
- ③ 求出与边界最吻合的多边形，如图（d）所示;
- ④ 根据选出的多边形，以图(d）中的黑点为起点计算其链码
- ⑤ 求出链码的差分码;
- ⑥循环差分码使其数串值最小，从而得到已给边界的形状数。

在这里插入图片描述

11.5区域特征

一个区域由区域的外围边界和区域内部组成。在上一节中，讨论了区域外围边界的表示和描述，在这一节中，将主要讨论区域内部特征的表示和描述。

区域面积

区域面积是区域的一个基本特征,它描述区域的大小。一幅灰度图像经过二值化之后，目标物体变成灰度值为1的区域，而背景的灰度值为0。对于目标区域R，设正方形像素的边长为单位长，则其面积A的计算公式为
$A=\sum_{(x,y)\in R}1$
可见，计算区域面积就是对属于区域的像素计数。

位置

图像中区域的位置定义为区域的面积中心，面积中心就是物体的重心O。因二值图像质量分布是均匀的，故重心和形心重合。若图像中的物体对应的像素位置为
$x_i,y_j)(i=0,1，...,M-1;j=0,1，...,N-1)$
则可用下式计算位置坐标:
$\overline x=\frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1}x_if(x_i,y_j)\\ \overline y=\frac{1}{MN}\sum_{i=0}^{M-1}\sum_{j=0}^{N-1}y_jf(x_i,y_j)$

孔

如果在被封闭边缘包围的区域中不包含我们感兴趣的像素，则称此区域为图形的孔洞，用字母H表示,如下图所示，在区域中宥两个孔洞，即H=2。如果把区域中孔洞数作为拓扑描述符，则这个性质将不受伸长或旋转变换的影响，但是，如果撕裂或折叠时，孔洞数将发生变化。

连接部分

一个集合的连接部分就是它的最大子集，在此子集中，任何两点都可以用一条完全处于子集中的曲线加以连接。图形的连接部分数用字母C表示，如下图中包含有三个连接成分，即C=3。

欧拉数

图形中连接部分数和孔洞数之差定义为欧拉数，用字母E表示，即
$E = C - H$
下图给出了一个欧拉数的例子，其中图(a）中有一个连接部分和一个孔洞，所以它的欧拉数为0，图(b)有一个连接部分和两个孔洞，所以它的欧拉数为-1。

事实上，H、C和E都可以作为图形的特征。它们的共同点是，只要图形不撕开、不折叠，则它们的数值将不随图形变形而改变。因此，拓扑特性将不同于距离或基于距离测度所建立起来的其他任何性质。

偏心度

区域的偏心度e在一定程度上描述了区域的紧凑性。Tenenbaum提出了计算任意点集R偏心度的近似公式。

计算平均向量
- $x_0=\frac{1}{n}\sum_{x\in R}x$
- $y_0=\frac{1}{n}\sum_{y\in R}y$
计算ij矩
- $m_{ij}=\sum_{(x,y)\in R}(x-x_0)^i(y-y_0)^j$
计算方向角
- $\theta=\frac{1}{2}arctan(\frac{2m_{11}}{m_{20}-m_{02}})+n(\frac{\pi}{2})$
计算偏心度的近似值
- $e=\frac{(m_{20}-m_{02})^2+4m_{11}}{S}$

矩

当一个区域R只是以其内部点的形式给出时，我们可以用矩特征描述，它对大小、旋转和平移的变化都是不变的。

对于二维连续函数f(x,y)，(p+q）阶矩定义为:

$m_{pq}=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}x^py^qf(x,y)dxdy\\ p,q=0,1,2,...$

如果f(x,y)是分段连续的并且仅在xy平面内有限的部分具有非零值，则存在各阶矩，并且矩的序列
$m_{pq})$
由f(x,y)唯一决定。相反，
$m_{pq})$
也唯一地决定f(x,y)。

如果f(x,y)是数字图像，则
$m_{pq}=\sum_x\sum_yx^py^qf(x,y)\\$

$\mu_{pq}=\sum_x\sum_y(x-\overline x)^pf(x,y)$
- 零阶矩
  $m_{00}=\sum_x\sum_yf(x,y)$
  当f(x,y)相当于物体的密度时，则零阶矩
  $m_{00}$
  是密度的总和，即物体的质量。
- 低阶矩中的一阶矩
  $m_{10}=\sum_x\sum_yxf(x,y)$
  
  $m_{01}=\sum_x\sum_yyf(x,y)$
  
  分别除以零阶矩后所得的
  $\overline x=\frac{m_{10}}{m_{00}}$
  
  $\overline y=\frac{m_{01}}{m_{00}}$
  
  便是物体质量中心的坐标，或者直接表示区域灰度重心的坐标
- 中心矩
  中心距是反映区域R中的灰度相对于灰度重心是如何分布的度量。
  - 例如，
    $\mu_{20}和\mu_{02}$
    分别表示R围绕通过灰度重心的垂直和水平轴线的惯性矩，若
    $\mu_{20}>\mu_{02}$
    那么这可能是一个水平方向拉长的物体。
  - $\mu_{30}和\mu_{03}$
    
    的幅值可以度量物体对于垂直和水平轴线的不对称性。如果是完全对称的形状，其值应为零。
  - (p+q)阶规格化中心矩为:
    $\eta_{pq}=\frac{\mu_{pq}}{\mu_{00}^r},r=(p+q)/2+1,p+q =2,3,...$
  - 利用二阶和三阶规格化中心矩，推导出了下面七个不变矩组:
  - 计算计算下列图像的不变矩。黑的边界是加上去的，以使本例的所有图像都有相同的尺寸，图像中0值不影响hu矩的计算。下图(b)到(f)分别显示了图像(a)经平移、缩小、镜像、旋转45度和旋转90度操作后的结果。
    
    下表总结了上述6幅图像的7个不变矩的值。为减小动态范围，所显示的值是
    $sgn(\phi_i)log_{10}(|\phi|)$
    需要绝对值的原因是许多矩的值是负数或小数；符号函数保留。表中的两个关键点是:
    - （1）矩的值接近程度与平移、尺度缩放、镜像和旋转无关；
    - (2)
      $\phi_7$
      的符号对于镜像图像是不同的。

11.6运用主成分进行描述

主成分描述
- 主成分分析是将高维信号进行降维操作的一种重要手段，是从高维信号中提取出低维的主要信息，从而把高维空间中的信号映射到低维空间。
- 主成分分析就是使用主成分来描述原来的高维复杂信号。
主成分分析步骤如下:
- ① 计算输入的高维信号的协方差矩阵;
- ② 计算该协方差矩阵的特征值和特征向量;
- ③ 将特征向量按照它们对应的特征值大小进行排序;
- ④ 挑选出与较大特征值对应的重要特征向量;
- ⑤ 将原始信号投影到所选特征向量构成的空间上，从而得到一个低维信号。