【多元统计分析】15.Fisher判别法

最新推荐文章于 2024-12-01 22:32:03 发布

江景页

最新推荐文章于 2024-12-01 22:32:03 发布

阅读量6.1k

点赞数 1

分类专栏：《多元统计分析》学习笔记文章标签：多元统计分析 Fisher判别法

本文链接：https://blog.csdn.net/jingye333/article/details/109628381

版权

《多元统计分析》学习笔记专栏收录该内容

19 篇文章

订阅专栏

文章目录

十五、Fisher判别法

十五、Fisher判别法

1.Fisher判别法概述

在直接判别法中，如果我们假象每个类 $G_i$ 在 $R^m$ 占据一个空间，那么我们判别样本属于其中的某一类，就以马氏距离（或广义马氏距离）作为标准，换言之，我们可以想象成每一个 $G_i$ 具有某种“吸引力”，将距离它比较近的样本“拉”过来，这种拉力将 $R^m$ 分成 $k$ 个互不相交的区域。如果每个类占据的空间比较近，它们的“拉力界限”会比较模糊，判别的结果就会比较差。

如果存在某种变换，能将不同的类占据的空间分散开来，对样本也施加这种变换后，判别就发生在变换后的空间上，变成界限清晰的判别，这就是Fisher判别的基本思想。由于线性函数在实际应用中最方便，所以我们会使用一个线性函数 $a=(a_1,\cdots,a_m)$ 进行投影。

我们可以将Fisher判别法视为距离判别法的补充，因为我们之前说过，距离判别对于均值相近的总体效果较差；如果使用投影函数，将原来的总体映射到一个均值能被拉开的一元空间或多元空间上，就能提高分辨的效率。

2.如何寻找线性函数 $a$

要鉴别是否将不同的类分开，可以运用方差分析的方法，即对比组内平方和与组间平方和的差距。现假设从 $G_t$ 中抽取的总体是 $X_{(\alpha)}^{(t)},1\le \alpha \le n_t$ ，则组内离差阵和组间离差阵是
$A=\sum_{t=1}^k\sum_{\alpha=1}^{n_t}(X_{(\alpha)}^{(t)}-\bar X^{(t)})(X_{(\alpha)}^{(t)}-\bar X^{(t)})', \\B = \sum_{t=1}^k n_t(\bar X^{(t)}-\bar X)(\bar X^{(t)}-\bar X)';$
经过线性变换 $a^{'}$ 的处理后，离差阵变成平方和，即
$A_0=a'Aa, \\B_0=a'Ba;$
所以，根据方差分析的思想（参见《十一、回归方程与回归系数的显著性检验》：1.平方和分解），如果分组足够开，组间平方和 $B_0$ 与组内平方和 $A_0$ 的商应该会比较大，即定义
$\Delta(a)=\frac{B_0}{A_0}=\frac{a'Ba}{a'Aa},$
要求的结果是 $\max \Delta(a)$ ，为了对 $a$ 作出限制，增添一个条件 $a^{'} A a = 1$ ，这样问题就变成了
$\max \Delta (a)=a'Ba,\quad \text{s.t. }a'Aa=1.$
这是一个带约束求最值问题，使用Lagrange乘数法，得到Lagrange函数是
$\varphi(a)=a'Ba-\lambda(a'Aa-1),\\ \left\{ \begin{array}l \dfrac{\partial \varphi}{\partial a}=2(B-\lambda A)a=0, \\ \dfrac{\partial \varphi}{\partial \lambda}=a'Aa-1=0. \end{array} \right.$
由此， $\lambda$ 是 $A^{-1}B$ 的特征根， $a$ 是相应的特征向量，且 $\Delta a=a'Ba=a'\lambda Aa=\lambda$ ，也就是说 $\Delta a$ 的最大化问题，实际上是求 $A^{-1}B$ 的最大特征值和相应特征向量的问题。所以，我们最终结论是：

Fisher线性判别结论：在Fisher准则下，线性判别函数 $u (X) = a^{'} X$ 的解 $a$ ，是特征方程 $|A^{-1}B-\lambda I|=0$ 的最大特征根 $\lambda_1$ 所对应的特征向量 $l_1$ ，满足 $l_1'Al_1=1$ ，且相应的判别效率为
$\Delta(l_1)=l_1'Bl_1=\lambda_1.$

如果一个线性判别函数不能很好区分 $k$ 个总体，就选择第二大的特征值 $\lambda_2$ 对应的特征向量 $l_2$ ，以此类推到第三个、第四个……称线性判别函数 $u_1(X),\cdots,u_l(X)$ 的累计判别能力为
$P_{(l)}=\frac{\lambda_1+\cdots+\lambda_l}{\lambda_1+\cdots+\lambda_r}.$
这里 $r$ 是非零特征值总数， $\lambda_1\ge \lambda_2\ge \cdots \ge\lambda_r>0$ 。

3.Fisher判别准则

如果 $A^{-1}B$ 的非零特征值是 $\lambda_1\ge \lambda_2\ge \cdots \ge\lambda_r>0$ ，对应的特征向量是 $l_1,l_2,\cdots,l_r$ 。这里 $r\le \min(m,k-1)$ ，则我们可以建立线性投影函数 $l^{'} X$ ，将 $m$ 元数据投影到一维直线上，但此时又应该如何判别？

先考虑 $k = 2$ 的时候，此时 $r = 1$ ，线性判别函数只有一个： $u (X) = l^{'} X$ ，现在要求出特征根与特征向量。接下来是特征值求值的推导：
$\begin{aligned} B=&n_1(\bar X^{(1)}-\bar X)(\bar X^{(1)}-\bar X)'+n_2(\bar X^{(2)}-\bar X)(\bar X^{(2)}-\bar X)' \\ =&n_1\left(X^{(1)}-\frac{n_1\bar X^{(1)}+n_2\bar X^{(2)}}{n_1+n_2} \right)\left(X^{(1)}-\frac{n_1\bar X^{(1)}+n_2\bar X^{(2)}}{n_1+n_2} \right)' + \\ &n_2\left(X^{(2)}-\frac{n_1\bar X^{(1)}+n_2\bar X^{(2)}}{n_1+n_2} \right)\left(X^{(2)}-\frac{n_1\bar X^{(1)}+n_2\bar X^{(2)}}{n_1+n_2} \right)’ \\ =&\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})(\bar X^{(1)}-\bar X^{(2)})'; \\ \\ A^{-1}B=& A^{-1}\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})(\bar X^{(1)}-\bar X^{(2)})'; \end{aligned}$
由于 $A B$ 与 $B A$ 的特征值相同，所以 $A^{-1}B$ 的特征值与 $\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})'A^{-1}(\bar X^{(1)}-\bar X^{(2)})$ 相同，即
$\det\left[\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})'A^{-1}(\bar X^{(1)}-\bar X^{(2)})-\lambda I \right]=0, \\ \Downarrow \\ \lambda=\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})'A^{-1}(\bar X^{(1)}-\bar X^{(2)})\stackrel {\rm d}=\frac{n_1n_2}{n_1+n_2}d^2.$
这里 $d^2=(\bar X^{(1)}-\bar X^{(2)})'A^{-1}(\bar X^{(1)}-\bar X^{(2)})$ ， $A$ 是组内离差阵。与之对应的特征向量 $l$ 为
$l=\frac 1dA^{-1}(\bar X^{(1)}-\bar X^{(2)}),$
它满足 $A^{-1}Bl=\lambda l$ 与 $l^{'} A l = 1$ 。可以注意到，这种情况与同协方差阵的直接判别法有很强的联系：同协方差阵情况下， $S=\frac{1}{n_1+n_2-2}A$ ，判别系数为 $S^{-1}(\bar X^{(1)}-\bar X^{(2)})$ ，与这里的特征向量恰好差了一个倍数。

接下来，就可以按照距离判别法对两个类进行判别（参见《十三、直接判别法》），记样本 $X$ 经过变换后变成 $u = u (X) = l^{'} X$ 。投影后 $G_t$ 的样本方差是 $\hat \sigma^2=l'S_tl$ ，判别阈值点可以取成
$\bar u=\frac12(\bar u^{(1)}+\bar u^{(2)})或u^*=\frac{\hat\sigma_2\bar u^{(1)}+\hat\sigma_1\bar u^{(2)}}{\hat \sigma_1+\hat \sigma_2}.$
这里两种阈值点分别对应转换后方差相等于不等的情况。设 $\bar u^{(1)}>\bar u^{(2)}$ ，如果 $u (X)$ 大于阈值点，就判给 $G_1$ ；否则判给 $G_2$ 。

对于 $r > 1$ 的情况，如果只取一个最大的特征值对应的特征向量作为线性判别函数，则情况与上面的类似，不同之处，只是在于一维直线上聚集了多个不同的正态总体 $G_t$ ，同样考察变换后的样本到变换后的类的马氏距离，取最小的即可，即：
$\min\frac{(u-\bar u^{(1)})^2}{\hat \sigma_i^2},\quad i=1,2,\cdots k.$
如果有 $r$ 个非零特征根与相应的 $r$ 个线性判别函数 $u_1(X),\cdots,u_r(X)$ ，将原来每个样本的 $m$ 个变量变成 $r$ 个新变量，这时候常常取 $l\le r$ ，且满足 $(\lambda_1+\cdots +\lambda_l)/(\lambda_1+\cdots+\lambda_r)\ge P_0(=0.7)$ ，这样就把 $m$ 元总体的判别问题化成了 $l$ 元总体的判别问题，运用 $l$ 元数据的距离判别法即可。

回顾总结

Fisher判别法的思想是，将原来距离较近的类通过某种线性判别函数的投影，分散到一个一维空间或者多维空间上，再用距离判别法来判别。
线性判别函数 $l$ 与其判别效率 $\lambda$ ，是 $A^{-1}B$ 的最大特征值与对应的特征向量，这里 $A$ 是组内离差阵， $B$ 是组间离差阵，即
$A=\sum_{t=1}^k\sum_{\alpha=1}^{n_t}(X_{(\alpha)}^{(t)}-\bar X^{(t)})(X_{(\alpha)}^{(t)}-\bar X^{(t)})', \\ B=\sum_{t=1}^k n_t(\bar X^{(t)}-\bar X)(\bar X^{(t)}-\bar X)'.$
特别当只有两组的时候，有
$\lambda=\frac{n_1n_2}{n_1+n_2}(\bar X^{(1)}-\bar X^{(2)})'A^{-1}(\bar X^{(1)}-\bar X^{(2)})=\frac{n_1n_2}{n_1+n_2}d^2, \\ l = \frac 1dA^{-1}(\bar X^{(1)}-\bar X^{(2)}).$
此时 $X$ 经过变换变成 $u = u (X) = l ’ X$ ，分离的阈值点是
$\bar u=\frac12(\bar u^{(1)}+\bar u^{(2)})或u^*=\frac{\hat\sigma_2\bar u^{(1)}+\hat \sigma_1\bar u^{(2)}}{\hat \sigma_1+\hat \sigma_2}.$
如果只选择一个线性判别函数 $l$ ，那么就把数据映射到一维空间上，计算映射后样本到每个类的马氏距离，选择最小的那个：
$d^2_i(u)=\frac{(u-\bar u^{(i)})^2}{\hat \sigma_i^2}.$
如果选了多个线性判别函数 $l_1,\cdots,l_l$ ，一般需要满足 $(l_1+\cdots+l_l)/(l_1+\cdots +l_r)>0.7$ ，将每一个 $m$ 元样本 $X$ 映射成 $l$ 元样本 $u$ ，再用 $l$ 元总体的距离判别法进行判别。