1 直方图特征:
对颜色特征的表达方式有许多种,我们采用直方图进行特征描述。常见的直方图有两种:统计直方图,累积直方图。我们将分别实验两种直方图在图像聚类和检索中的性能。
l 统计直方图
为利用图像的特征描述图像,可借助特征的统计直方图。图像特征的统计直方图实际是一个1-D的离散函数,即:
上式中k代表图像的特征取值,L是特征可取值个数,是图像中具有特征值为k的像素的个数,N是图像像素的总数,一个示例如下图:其中有8个直方条,对应图像中的8种灰度像素在总像素中的比例。
l 累积直方图
图像特征统计的累积直方图也是一个1-D的离散函数,即:
上式的各个参数含义同前,与上图对应的累积直方图见下:
2 直方图相似性度量
得到图像特征的统计直方图后,不同图像之间的特征匹配可借助计算直方图间的相似度量来进行,以下介绍几种常见的直方图的相似度量方法:
l 直方图相交法
另分别为两幅图像某一特征的统计直方图,则两图像之间的匹配值P(Q, D)可借助直方图相交来实现,即:
l 直方图匹配法
直方图间的距离可使用一般的欧式距离函数来衡量:
我们可以实验多种相似性度量准则,研究它们之间的差异,找出对于某类图像,那种相似性度量能更加准确的描述两幅图像之间的相似程度。
3 纹理特征:
纹理是另一个描述图像时常用的概念,如前所述,纹理通常定义为图像的某种局部性质, 或是对局部区域中像素之间关系的一种度量。纹理特征可用来对图像中的空间信息进行一定程度的定量描述。本文主要讨论基于共生矩阵对纹理进行描述的模型。
3.1 共生矩阵定义
共生矩阵是用来描述纹理中灰度基元之间空间联系的基础,基于共生矩阵的模型充分利用了纹理中灰度分布的性质。基于共生矩阵,可定义许多基于统计法的纹理特性。
若将图像的灰度级定为N 级, 那么共生矩阵为N×N 矩阵, 可表示为 , 其中位于(h, k ) 的元素
的值表示一个灰度为h 而另一个灰度为k 的两个相距为
的像素对出现的次数。设S为目标区域R中具有特定空间联系的像素对的集合,则共生矩阵P可定义为:
上式等号的分子是具有某种空间关系、灰度值分别为和
的象素对的个数,分母为象素对的总个数。
不同的图像由于纹理的尺度的不同其灰度共生矩阵可以有很大的差别。下图分别给出一个具有粗纹理的图像和它的共生矩阵图及一个具有细纹理的图像和它的共生矩阵图的例子。由此可见用对灰度共生矩阵的各种统计量可作为纹理特性的度量。
不同纹理图像和其对应的共生矩阵图
3.2 纹理描述符
利用上述灰度共生矩阵可以定义诸如反差、能量、熵和相关等纹理描述符,现介绍如下:
l 反差(或称为主对角线的惯性矩) :
对于粗纹理, 由于的数值较集中于主对角线附近, 此时(h-k)的值较小, 所以相应的CON值也较小。相反, 对于细纹理则相应的CON 值较大。
l 能量(或称为角二阶矩) :
这是一种对图像灰度分布均匀性的度量。当的数值分布较集中于主对角线附近时, 其相应的A SM值较大;反之,A SM 值则较小。
l 熵:
当灰度共生矩阵中各数值相差不大且较分散时, ENT 值较大; 反之, 若
的数值较集中时, EN T 值较小。
l 相关:
其中分别为
,的均值和标准差,
是矩阵M 中每列元素之和;
是矩阵M 中每行元素之和。相关量是用来描述矩阵中行或列元素之间相似程度的,它是灰度线性关系的度量。
3.3 纹理特征矢量
在纹理特征的提取中, 我们先把图像的亮度分量图分成64 个灰度级, 并构造四个方向的共生矩阵,即,
,
,
,然后分别计算四个共生矩阵的上述4 个纹理参数, 最后以各参数的均值和标准差即
作为纹理特征向量中的各个分量。
4 纹理特征的相似度
由于以上8 个分量物理意义和取值范围不同, 需对它们进行内部归一化。这样在计算相似距离时, 可使各分量具有相同权重。高斯归一化方法是一种较好的归一化方法, 其特点是少量超大或超小的元素值对整个归一化后的元素值分布影响不大, 具体方法如下:
一个N 维的特征向量可记为: F = []。如用
代表图像库中的图像, 则对其中任一幅图像 其相应的特征向量为
。假设特征分量值序列
符合高斯分布, 计算出其均值
和标准差
, 然后利用下式可将
归一化至[ - 1, 1 ]区间:
根据上式归一化后, 各个均转变成具有N (0, 1) 分布的
。如果利用3
进行归一化, 则
的值落在[ - 1, 1 ]区间的概率可达99% 。实际应用中, 我们将[ - 1, 1 ]区间外的
值设为-1或1, 以保证所有
的值均落在[ - 1, 1 ]区间。
5 聚类算法
聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。
动态聚类的思想是首先选择若干个样本点作为聚类中心,然后按照某种聚类准则使各样本点向各个中心聚集,从而得到初始分类;然后判断初始分类是否合理,如果不合理,则修改聚类中心,反复进行修改,直到分类合理为止。动态聚类有多种算法,其中比较著名的是K -均值算法和ISODATA 算法。本文采用K-均值算法,下面对其进行简要介绍:
设有N个待分类样本,聚类为K 类,N
K。
第一步:任选K个初始聚类中心,例如选前K个样本(称为旧聚类中心);
第二步:将每一个待分类样本按照最近邻准则分类到以旧聚类中心为标准样本的各类中去;
第三步:计算分类后各类的重心,称为新聚类中心:,其中
为
类中的样本数;
第四步:检验是否分别等于
,如果相等,则算法收敛,结束,否则用
代替
,返回第二步。
6 检索算法
检索只需要计算待检索图像与其它图像之间的相似度,按照相似度从小到大的原则排序,根据阈值选取前n个即可。
7 聚类性能分析
聚类的性能分析可以用聚类的准确度来评价。
8 检索的性能分分析
检索的性能需要用准确率和招回率来评价。