http://www.360doc.com/content/17/0822/09/46645084_681154695.shtml
K-L变换( Karhunen-Loeve Transform)是建立在统计特性基础上的一种变换,有的文献也称为霍特林(Hotelling)变换,因他在1933年最先给出将离散信号变换成一串不相关系数的方法。K-L变换的突出优点是相关性好,是均方误差(MSE,Mean Square Error)意义下的最佳变换,它在数据压缩技术中占有重要地位。
KL变换 Karhunen-Loeve
1.K-L变换的定义
以矢量信号X的协方差矩阵Ф的归一化正交特征矢量q所构成的正交矩阵Q,来对该矢量信号X做正交变换Y=QX,则称此变换为K-L变换(K-LT或KLT),K-LT是Karhuner-Loeve变换的简称,有的文献资料也写作KLT。可见,要实现KLT,首先要从信号求出其协方差矩阵Ф,再由Ф求出正交矩阵Q。Ф的求法与自相关矩阵求法类似。2.K-L变换的特性
(1)去相关特性。 K-L变换是变换后的矢量信号Y的分量互不相关。 (2)能量集中性。 所谓能量集中性,是指对N维矢量信号进行K-L变换后,最大的方差见集中在前M个低次分量之中(M<N)。 (3)最佳特性。 K-L变换是在均方误差测度下,失真最小的一种变换,其失真为被略去的各分量之和。由于这一特性,K-L变换被称为最佳变换。许多其他变换都将K-L变换作为性能上比较的参考标准。 (4)无快速算法,且变换矩阵随不同的信号样值集合而不同。 这是K-L变换的一个缺点,是K-L变换实际应用中的一个很大障碍。
§4.6 基于Karhunen-Loeve变换的特征提取
K-L变换又称主分量分析,是一种正交变换,学过数学信号处理或数字图象处理的同学可能已经学过这种变换,K-L变换常用来作为数据压缩,这里我们用它作降维,学习这一节主要要掌握以下几个问题:
1.什么是正交变换,这是在数字信号处理或其它课学习过的内容,很重要。
2.K-L变换是一种最佳的正交变换,要弄清是什么意义的最佳,也就是说它最佳的定义。
3.K-L变换的性质。
4.K-L变换的重要应用。
4.6.1 Karhunen-Loeve变换
正交变换概念
变换是一种工具,它的用途归根结底是用来描述事物,特别是描述信号用的。例如我们看到一个复杂的时序信号,我们希望能够对它进行描述,特别是希望用一些经济有效的方式进行描述。描述事物的基本方法之一是将复杂的事物化成简单事物的组合, 或对其进行分解,分析其组成的成分。
|
前面讨论了利用各种距离判据进行特征提取的方法,,这一节要讨论另一种特征提取方法,即基于Karhunen-Loeve变换原理的方法。这种方法也是以样本特征向量在特征空间分布为原始数据,通过实行Karhunen-Loeve变换,找到维数较少的组合特征,达到降维的目的。由于样本的描述都是离散的向量,因此我们只讨论Karhunen-Loeve变换(以后称K-L变换)的离散情况。
现在我们讨论第二个问题,即K-L变换的最佳是指什么含义,在这里我们讨论的是特征空间的降维,因此这个最佳是与降维联系起来的。对我们降维来说,原特征空间是D维的,现希望降至d维d<D。不失一般性,可以认为D为无限大的情况,并设原信号可用一组正交为换基ui表示,见(4-59)。现要求降维至d维,也就是说将d+1维以上的成分略去,显然原信号会因此受到一些损失,我们将其表示成(4-60)形式,而每个信号的损失则表示成X与之差。现在的问题是对我们讨论的问题,即给定一个训练样本集条件下要找一个好的正交变换,能使这种误差从总体上来说是最小。注意这里讲的是总体,这是因为降维以后,训练样本集中的每个样本数据都受到损失,要衡量的是总体效果。在这种情况下最常用的指标是均方误差最小,或称均方误差的期望值最小,这就是(4-61)式。这就是说要找的正交变换能使一组样本集的截均方误差的期望值为最小。
K-L变换是一种正交变换,即将一个向量X,在某一种坐标系统中的描述,转换成用另一种基向量组成的坐标系表示。这组基向量是正交的,其中每个坐标基向量用ui表示,j=1,…,∞,因此,一个向量X可表示成
(4-59)
对一向量或一向量空间进行正交变换,可采用多种不同的正交坐标系,关键在于使用正交变换要达到的目的,不同的要求使用不同的正交变换。这里要讨论的是,如果我们将由(4-59)表示的无限多维基向量坐标系统改成有限维坐标系近似,即
(4-60)
表示X的近似值或估计量,我们希望在同样维数条件下,使向量X的估计量误差最小。确切地说是使所引起的均方误差
(4-61)
为最小。K-L变换可以实现这个目的。
要找满足(4-61)式为最小是一个求极值的问题,求最佳的是正交变换的基ui,i=1,…∞。因此还要满足变换是正交归一这个条件,因此这是一个求条件极值的问题,一般方法是利用拉格朗日乘子法将条件数值转换成一个求无条件极值的问题,观察从(4-61)到(4-69)的过程而(4-62)则是对拉格朗日函数g(ui)求偏导而得出的结果。
至于对某一个数据X的相应cj值,可以通过X与每一个基uj的点积来计算。由于不同的基之间是相互正交的,这个点积值就是cj的值,即cj=ujTx(补4-2)如不明白可看讲义中的(4-65)与(4-66)如果我们要求一组系数cj,并将其表示成一个向量形式C=(c1,c2,……)T,则我们可以从(补4-2)得:
(补4-3)
则U就是一个变换矩阵,其中每一行是某一个正交基向量的转置。由X计算C称为对X的分解。反过来,如果我们希望用C重构信号X,则根据(被4-1),它是各个成分之和。如果我们将对应于每个基ui的成分表示成xi,则重构的信号又可表示成一个向量形式。
则 (补4-4)
显然,与原向量X是有差别的,是原向量的一个近似,要使与X的差异越小,则要用更多维数的正交基。
如果将 代入(4-61)可得到
由于uj,j=1,…,∞是正交归一坐标系,有
(4-63)所以有
(4-64)
系数cj可以利用正交坐标系的特性得到。如令某一基向量uj与向量X作点积,则有
(4-65)
利用(4-63)有
(4-66)
代入(4-64)得
(4-67)
如令,则有
欲使该均方误差ε为最小,就变成在确保正交变换的条件下,使ε达最小的问题,这可用拉格朗日乘子法求解。为此设一函数
并令其对uj求导数,得
(4-68)
可见向量应是矩阵的特征值的特征向量,而此时截断误差为。如将按其大小顺序排列,即
则取前d项特征值对应的特征向量组成的坐标系,可使向量的均方误差为最小。
满足上述条件的变换就是K-L变换。
在结束4.6.1节的学习时,我们还要强调K-L变换的特殊性。K-L变换是一种独特的正交变换,它与一些常用的正交变换不同。最常见的正交谈换如富里叶变换,哈达玛变换离散余弦变换等都是一种通用的正交变换,它们各自有固定的形式,如富里叶变换的基是以频率为参数的e的括数函数族组成。它主要用来对数据作频谱分析。滤波等。而K-L变换的基并没有固定的形式,它是从对给定数据等{x}进行计算产生的。换句话说,给定的数据集不同,得到的K-L变换基函数也因此而不同。正是因为它对给定数据集{x}存在依赖关系,它能在降低维数时仍能较好地描述数据,因此是模式识别中降低特征空间维数的有效方法。但是由于它的正交基函数族是从训练样本集中计算出来的,因此并不存在一种对任何数据都适用的K-L变换基,一般的作法是先用一组训练数据计算出K-L变换基,然没用这组基来重构或分析其它数据。面举一个在人脸表情分析的例子,使我们增加对K-L变换的感性认识。
例:
为了实现对人脸表情进行分析,或生成对不同表情的人脸,可以使用K-L变换。具体做法是,先获取一组带不同表情的人脸图象作为训练样本集,例如补图4-1是其中的一个日本女孩子做六种不同典型表情时的图象。如果我们将训练样本集表示成{x},则图4-1中的每一幅图就是一个数据x,利用这些数据计算出相应的协方差矩阵4。然后对这个矩阵进行特征值分解,求得相应的特征向量。我们把特征值按其数值进行降序排列,并选出前项用来重构人脸不同的表情图象,为了说明。
本章前述部分着重讨论了基于各种原理与判据的特征提取方法。从其工作原理来看可以分成两大类。一类基于对样本在特征空间分布的距离度量。其基本思想是通过原有特征向量线性组合而成新的特征向量,做到既降维,又能尽可能体现类间分离,类内聚集的原则。在欧氏距离度量的条件下所提出的几种判据都是从这一点出发的,如
,,等。其中描述类内离散度与类间离散度的矩阵与是两个主要描述样本分布的数据。利用K-L变换进行特征提取的几个方法也是出于同样的原理。它是在原特征空间进行的一种特殊的正交变换,在其产生矩阵确定的范围内消除了特征各分量间的相关性,并从中选择有关的特征子空间。这一类方法由于直接从样本之间在特征空间中的距离度量出发,具有直观与计算简便等优点。但由于没有从概率分布考虑,与计算错误率没有直接的关系,当不同类别的样本存在交迭区时,所采用的特征提取结果无法保证有较小的错误率。
另一大类则是从概率分布的差异出发,制订出反映概率分布差异的判据,以此确定特征如何提取。这类判据由于与错误率之间可能存在单调或上界关系等,因此从错误率角度考虑有一定的合理性。但是使用这种方法需要有概率分布的知识,并且只是在概率分布具有简单形式时,计算才比较简便。熵概念的运用是描述概率分布另一种有用的形式,使用时也可仿造本章中所举例子,将一些量折算成概率形式,利用熵原理构造的判据,进行特征提取。
特征提取各个方法中都有一个共同的特点,即判别函数的极值往往演变为找有关距阵的特征值与特征向量,由相应的特征向量组成坐标系统的基向量。计算有关矩阵的特征值矩阵与特征向量,选择前d个大特征值,以它们相应的特征向量构成坐标系统,这是大部特征提取方法的基本做法。这一点与下面讨论的特征选择方法是不相同的。
在特征提取方法中所使用的各种判据原理不尽相同。从以上讨论可以看出,一般希望判据能满足以下几点要求:
(1) 与错误概率或其上界或下界有单调关系,如能做到这一点,当判据达到其最大值时,一般说来其错误概率较小。前面提到的基于概率分布的判据,如Bhattacharyya距离和Chernoff界限符合这个条件,而基于特征空间分布欧氏距离度量的一些判据与错误概率没有直接关系。
(2) 判据在特征独立时有可加性,即
这里用 表示第i与j类之间的可分性准则函数, 表示相应的k分量的可分性准则函数。
(3) 可分性判别应满足
即有可分性,及对称性。
(4) 单调性,是指维数增多时,判据值不应减少。