Fisher线性判别分析

最新推荐文章于 2024-06-04 07:30:00 发布

沙漠之狐MSFollower

最新推荐文章于 2024-06-04 07:30:00 发布

阅读量3.3k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/LiuPeiP_VIPL/article/details/90373962

版权

机器学习专栏收录该内容

32 篇文章

订阅专栏

博客围绕高维特征的两类线性判别问题展开，将样本投影到一个方向确定分类阈值和分类面。介绍了Fisher准则函数，通过一系列矩阵计算和转换得到最优投影方向。还提及在投影方向上确定分类阈值及决策规则，前提是样本为正态分布且协方差矩阵相同。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（1）高维特征的两类线性判别问题可以看作是把所有样本都投影到一个方向上，然后在这个一维样本空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分类面。

（2）由（1），我们可知，所谓分类就是要寻找一个投影方向w（ $w\in R^d$ ），使原始空间中的样本 $x$ 投影之后变成 $y= w^Tx$ 。我们以两类分类为例，即 $i=1,2$ ：使用 $X i$ 表示第i类样本， $m_{i}$ 表示第i类样本的均值， $N_{i}$ 表示第i类的样本数量。

①则原始空间中的第i类样本均值计算如下：

$m_{i}=\frac{1}{N_{i}}\sum_{x_{j}\in X i}{x_{j}},\quad(j=1,2,3,...)$

②原始样本的各类内离散度矩阵为：

$S_{i}=\sum_{x_{j}\in X{i}}(x_{j}-m_{i})(x_{j}-m_{i})^T$

③总类内离散度矩阵为：

$S_{w}=S_{1}+S_{2}$

④类间离散度矩阵为：

$S_{b}=(m_1-m_2)(m_1-m_2)^T$

⑤我们使用 $Yi$ 表示第i类样本投影后的结果， $\widetilde{m_{i}}$ 表示第i类样本投影之后的均值， $\widetilde{S_{i}^2}$ 表示投影后的类内离散度矩阵， $\widetilde{S_{w}}$ 表示投影后的总类内离散度矩阵， $\widetilde{S_{b}}$ 表示投影后的类间离散度矩阵可以得到：

$\widetilde{m_i}={\frac{1}{N_{i}}}\sum_{y_j\in Y_i}y_{j}={\frac{1}{N_{i}}}\sum_{x_j\in X_i}w^Tx_{j}=w^{T}\sum_{x_{j}\in X_{i}}x_{j}=w^Tm_{i}$

$\widetilde{S_{i}^2}=\sum_{y_{i}\in Y_{i}}(y_{j}-\widetilde{m_{i}})^2,(i=1,2)$

$\widetilde{S_{w}}=\widetilde{S_{1}^2}+\widetilde{S_{2}^2}=w^TS_{w}w$

$\widetilde{S_{b}}=(\widetilde{m_{1}}-\widetilde{m_{2}})^2=w^TS_{b}w$

⑥我们希望使投影后类间距大，类内距小，这样利于分类。即得到如下的准则：

$maxJ_{F}(w)=\frac{\widetilde{S_b}}{\widetilde{S_w}}=\frac{(\widetilde{m_1}-\widetilde{m_2})^2}{(\widetilde{S_1^2}+\widetilde{S_2^2})^2}=\frac{w^TS_bw}{w^TS_ww}$

称为Fisher准则函数。

⑦将⑥问题转化，可以得到：

$\begin{Bmatrix} max &w^TS_bw\\ s.t.& w^TS_ww=c\neq 0\\ \end{matrix}$

转换为拉格朗日函数的无约束极值问题：

$L(w,\lambda)=w^TS_bw-\lambda(w^TS_ww-c)$

由 $\frac{\partial L}{\partial w}=0$ ，可以得到 $S_bw^*-\lambda S_ww^*=0$ ，即 $S_bw^*=\lambda S_ww^*$ 。在两边同乘以 $S_w^{-1}$ ，即可得到

$S_w^{-1}S_bw^*=\lambda w^*=S_w^{-1}(m_{1}-m_{2})(m_{1}-m_{2})^Tw^*$

因为 $(m_{1}-m_{2})^Tw^*$ 为常数，故 $w^*$ 在方向上服从 $S_w^{-1}(m_{1}-m_{2})$ ，也即Fisher判别准则下的最优投影方向。

（3）在（2）中，Fisher判别函数最优解本身只是给出了一个投影方向，并没有给出我们所要的分类面。我们需要在投影后的方向（一维空间）上确定一个分类阈值 $w_0$ ，并采取决策规则( $\xi_i$ 表示样本类别)：

$g(x)=w^Tx+w_0 \begin{Bmatrix} >0 , x\in \xi_1 & \\ \leqslant0 , x\in \xi_2 & \\ \end{matrix}$

①我们知道，最优贝叶斯分类器是线性函数 $g(x)=w^Tx+w_0$ ，且有：

$\begin{Bmatrix} w=\sum^{-1}(\mu_1-\mu_2)&\\ w_0=-{}\frac{1}{2}(\mu_1+\mu_2)^T\sum^{-1}(\mu_1-\mu_2)-ln{}\frac{p(w_2)}{p(w_1)} &\\ \end{matrix}$

当然，这个前提得是样本是正太分布的，并且两类样本的协方差矩阵相同。

②对比（2)—⑦，我们可以得到：

$\begin{Bmatrix} w=S_w^{-1}(m_1-m_2)&\\ w_0=-{}\frac{1}{2}(m_1+m_2)^TS_w^{-1}(m_1-m_2)-ln{}\frac{p(w_2)}{p(w_1)} &\\ \end{matrix}$

③故而有决策规则：

$g(x)=w^T(x-{}\frac{1}{2}(m_1+m_2)) \begin{Bmatrix} >log{}\frac{p(w_2)}{p(w_1)} , x\in \xi_1 & \\ \leqslant log{}\frac{p(w_2)}{p(w_1)} , x\in \xi_2 & \\ \end{matrix}$

其中， $w=S_w^{-1}(m_1-m_2)$ 。