上一讲已经给出了类内距离的概念。
针对这个概念,有人从完全不同的两个角度给出了方法。
这就是聚类变换与K-L变换。本章介绍聚类变换。
降维到底是在干什么?
各个特征(各个分量)对分类来说,其重要性当然是不同的。
舍去不重要的分量,这就是降维。
关键问题是,什么叫不重要?
这就是为什么会有两种不同的变换了。
聚类变换认为:重要的分量就是能让变换后类内距离小的分量。
类内距离小,意味着抱团抱得紧。
可以证明,为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
直观上好理解:对于某一类来说,某个分量的观察值会有起伏,这是由观察误差引起的。如果某个数据的方差越小,则表明观察值越可靠。那么,对那些方差小的分量给予较大的权值(这是因为这些分量更可靠),反之给予更小的权值。这样变换后,同类的点就能包得更紧了。
证明一下:为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
为简单起见,设这个W阵为对角阵,即先仅仅考虑只改变坐标尺度的变换W。
假定原有向量a和b,属于同一类别。经变换后得
则和之间的距离的平方为:
在交换后的新空间里,同一类点的类内距离的平方为:
其中是样本在变换前沿方向的方差。现在要求出在一定的约束条件下,使其取极小值的矩阵W。下面分两种约束条件来分析:
①约束条件为
运用拉格朗日乘子法,取准则函数:
其中第一项为极小化函数,为乘子。
可得:
代入约束条件:
得
和式的值是个常数,可见
因此方差大的分量,加的权值比较小。
②约束条件为
取准则函数为:
由
可得
代入约束条件:
得
积式的值是个常数,可见
重点就是一句话:聚类变换是沿着类内距离最小的方向降维,这直接导致了保留方差小的分量。
如何聚类变换?
首先,既然要保留方差小的分量,就要把方差小的分量筛选出来。
主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题
其实就是转轴。通过坐标系的平移和旋转,找到一个分布的主轴方向。如图1所示。
图1
因为协方差矩阵C是个Hermite阵,所以可以酉对角化。
之前已经证明
所以将特征值升序排列,扔掉我们不想要n-m的大特征值。
变换后就能保证取得最小的方差的分量了。
其次就是加权了,在经过变换后,原来的协方差矩阵,变成了由特征值组成的对角阵。虽然已经完成了降维,但是这还不够,不能保证变换后的类内距离是最小的。还需要用乘以W矩阵来完成类内距离最小的目标。W的求法前面其实已经推导了,根据边界条件自由选择。
的协方差矩阵为
得到了,特征选择就已经做完了。