特征选择（二）- 聚类变换

最新推荐文章于 2022-04-20 09:59:16 发布

会飞的蝸牛

最新推荐文章于 2022-04-20 09:59:16 发布

阅读量1.4k

点赞数 3

文章标签：特征选择类内距离聚类变换

上一讲已经给出了类内距离的概念。

针对这个概念，有人从完全不同的两个角度给出了方法。

这就是聚类变换与K-L变换。本章介绍聚类变换。

降维到底是在干什么？

各个特征（各个分量）对分类来说，其重要性当然是不同的。

舍去不重要的分量，这就是降维。

关键问题是，什么叫不重要？

这就是为什么会有两种不同的变换了。

聚类变换认为：重要的分量就是能让变换后类内距离小的分量。

类内距离小，意味着抱团抱得紧。

可以证明，为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

直观上好理解：对于某一类来说，某个分量的观察值会有起伏，这是由观察误差引起的。如果某个数据的方差越小，则表明观察值越可靠。那么，对那些方差小的分量给予较大的权值（这是因为这些分量更可靠），反之给予更小的权值。这样变换后，同类的点就能包得更紧了。

证明一下：为了让变换后类内距离小，必须保留方差小的分量，并且赋予更大的权值。

为简单起见，设这个W阵为对角阵，即先仅仅考虑只改变坐标尺度的变换W。

$W = \left( {\begin{array}{*{20}{c}}{{w_{11}}}&O&O\\O& \ddots &O\\O&O&{{w_{nn}}}\end{array}} \right)$

假定原有向量a和b，属于同一类别。经变换后得

$a* = Wa,b* = Wb$

则 $a*$ 和 $b*$ 之间的距离的平方为：

${D^2}\left( {a*,b*} \right) = \sum\limits_{k = 1}^n {{{({a_k}* - {b_k}*)}^2}} = \sum\limits_{k = 1}^n {{w_{kk}}^2{{({a_k}* - {b_k}*)}^2}}$

在交换后的新空间里，同一类点的类内距离的平方为：

${(D*)^2} = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}}$

其中 ${\sigma _k}^2$ 是样本 ${x_k}$ 在变换前沿方向的方差。现在要求出在一定的约束条件下，使其取极小值的矩阵W。下面分两种约束条件来分析：

①约束条件为

$\sum\limits_{k = 1}^n {{w_{kk}}} = 1$

运用拉格朗日乘子法，取准则函数：

$S = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}} - \rho \sum\limits_{k = 1}^n {({w_{kk}} - 1)}$

其中第一项为极小化函数， $\rho$ 为乘子。

$\frac{{\partial S}}{{\partial {w_{kk}}}} \buildrel \Delta \over = 0$

可得：

$4{\sigma _k}^2{w_{kk}} - \rho = 0 \Rightarrow {w_{kk}} = \frac{\rho }{{4{\sigma _k}^2}}$

代入约束条件：

$\sum\limits_{k = 1}^n {{w_{kk}}} = \rho \bullet \frac{1}{4} \bullet \sum\limits_{k = 1}^n {\frac{1}{{{\sigma _k}^2}}} = 1$

得

$\rho = \frac{4}{{\sum\limits_{k = 1}^n {{\sigma _k}^{ - 2}} }}$

${w_{kk}} = \frac{1}{{{\sigma _k}^2\sum\limits_{k = 1}^n {{\sigma _k}^{ - 2}} }}$

和式的值是个常数，可见

${w_{kk}} \propto \frac{1}{{{\sigma _k}^2}}$

因此方差大的分量，加的权值比较小。

②约束条件为

$\prod\limits_{k = 1}^n {{w_{kk}}} = 1$

取准则函数为：

$S = 2\sum\limits_{k = 1}^n {{{({w_{kk}}{\sigma _k})}^2}} - \rho (\prod\limits_{k = 1}^n {({w_{kk}} - 1)} )$

由

$\frac{{\partial S}}{{\partial {w_{kk}}}} \buildrel \Delta \over = 0$

可得

$4{\sigma _k}^2{w_{kk}} - \rho \frac{{\prod\limits_{k = 1}^n {{w_{kk}}} }}{{{w_{kk}}}} = 0 \Rightarrow {w_{kk}} = \frac{{\sqrt \rho }}{{2{\sigma _k}}}$

代入约束条件：

$\prod\limits_{k = 1}^n {{w_{kk}}} = \frac{{{\rho ^{\frac{n}{2}}}}}{{{2^n}\prod\limits_{k = 1}^n {{\sigma _k}} }} = 1$

得

$\rho = 4{\left[ {\prod\limits_{k = 1}^n {{\sigma _k}} } \right]^{\frac{2}{n}}}$

${w_{kk}} = \frac{1}{{{\sigma _k}}}{\left[ {\prod\limits_{k = 1}^n {{\sigma _k}} } \right]^{\frac{1}{n}}}$

积式的值是个常数，可见

${w_{kk}} \propto \frac{1}{{{\sigma _k}}}$

重点就是一句话：聚类变换是沿着类内距离最小的方向降维，这直接导致了保留方差小的分量。

如何聚类变换？

首先，既然要保留方差小的分量，就要把方差小的分量筛选出来。

主轴变换或叫主成分分析(PCA-principal componenet analysis)能解决这个问题

其实就是转轴。通过坐标系的平移和旋转，找到一个分布的主轴方向。如图1所示。

图1

因为协方差矩阵C是个Hermite阵，所以可以酉对角化。

$\begin{array}{l}AC{A^T} = \Lambda = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}& \cdots &0\\ \vdots & \ddots & \vdots \\0& \cdots &{{\lambda _n}}\end{array}} \right)\\A = {\Phi ^T} = \left( \begin{array}{l}{\Phi _1}^T\\ \vdots \\{\Phi _n}^T\end{array} \right)\end{array}$

之前已经证明

${D^2} = 2trC = 2\sum\limits_{i = 1}^n {{\lambda _i}}$

所以将特征值升序排列，扔掉我们不想要n-m的大特征值。

$\begin{array}{l}{A_{m \times n}} = {\Phi ^T} = \left( \begin{array}{l}{\Phi _1}^T\\ \vdots \\{\Phi _m}^T\end{array} \right)\\{Y_m} = {A_{m \times n}}{X_n}\\{C^ * } = AC{A^T} = \left( {\begin{array}{*{20}{c}}{{\lambda _1}}& \cdots &0\\ \vdots & \ddots & \vdots \\0& \cdots &{{\lambda _m}}\end{array}} \right)\end{array}$