【Datawhale-机器学习-Task04-线性判别分析】

最新推荐文章于 2024-09-14 20:23:55 发布

wpzahu

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量582

点赞数 17

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/qumule/article/details/140018807

版权

【学习内容：西瓜书与南瓜书第三章（3.4线性判别分析）】

二分类线性判别分析

**【概念】**线性判别分析（LDA）是一种经典的线性学习方法，主要思路是，将样例投影到一条直线上面，可以使得同类样例的投影点尽可能接近，不同的样例之间距离尽可能远；然后针对新的样本进行分类时，根据其投影的位置来判断其样本类别。

在这里插入图片描述
图中 $x_{1} 、x_{2}$ 表示特征空间。
下面通过数学公式来解释和实现。

针对同类样例的投影点尽可能接近，即值越小越好，有协方差 $w^{T} {\textstyle \sum_{0}^{}} w$ 、 $w^{T} {\textstyle \sum_{1}^{}} w$ 来表示；
针对不同的样例之间距离尽可能远，即值越大越好，有 $\left \| w^{T} \mu _{0} -w^{T} \mu _{1} \right \| _{2}^{2}$ 来表达。
最大化目标 $J=\frac{\left \| w^{T} \mu _{0} -w^{T} \mu _{1} \right \| _{2}^{2}}{w^{T} {\textstyle \sum_{0}^{}}w+w^{T} {\textstyle \sum_{1}^{}}w}$
【定义】2范数

【定义】“类内散度矩阵”
$S_{w}= {\textstyle \sum_{0}^{}} +{\textstyle \sum_{1}^{}} \newline =\sum_{x\in X_{0} }^{}\left ( x-\mu _{0} \right ) \left ( x-\mu _{0} \right )^{T} +\sum_{x\in X_{0} }^{}\left ( x-\mu _{1} \right ) \left ( x-\mu _{1} \right )^{T}$

【定义】“类间散度矩阵”
$S_{b} =\left ( \mu _{0}-\mu _{1} \right ) \left ( \mu _{0}-\mu _{1} \right ) ^{T}$

则最大化目标J可以写成， $J=\frac{\omega ^{T}S_{b} \omega }{\omega ^{T}S_{\omega} \omega }$

\label{Eq.1}

【定义】拉格朗日乘子法
拉格朗日函数为：
$L\left ( \mathbf{x} ,\mathbf{\lambda} \right ) =f\left ( \mathbf{x} \right ) +\sum_{i=1}^{n}\lambda _{i}h_{i}\left ( \mathbf{x} \right )$
其中， $\mathbf{\lambda } =\left ( \lambda _{1},\lambda _{2},\cdots ,\lambda _{n} \right ) ^{T}$ 为拉格朗日乘子。然后对拉格朗日函数关于x求偏导，并令导数等于再搭配约束条件 $h_{i} \left ( x \right ) =0$ 解出x，求解出x的所有即为上述优化问题的所有可能【极值点】。

【求解w】
$\begin{align} &\min_{\omega } \quad -\omega ^{T} S_{b} \omega \\ &s.t. \quad\omega^{T} S_{b} \omega =1\Leftrightarrow \omega^{T} S_{b} \omega-1=0 \end{align}$
套入上面的拉格朗日函数，有

$L\left ( \mathbf{\omega} ,\mathbf{\lambda} \right ) =-\mathbf{\omega} ^{T} S_{b} \omega +\mathbf{\lambda} \left ( \mathbf{\omega} ^{T} S_{\mathbf{\omega}\mathbf{\omega} }-1 \right )$
并对w进行求偏导数，可得
$\begin{aligned} \frac{\partial L(\boldsymbol{w}, \lambda)}{\partial \boldsymbol{w}} & =-\frac{\partial\left(\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{b} \boldsymbol{w}\right)}{\partial \boldsymbol{w}}+\lambda \frac{\partial\left(\boldsymbol{w}^{\mathrm{T}} \mathbf{S}_{w} \boldsymbol{w}-1\right)}{\partial \boldsymbol{w}} \\ & =-\left(\mathbf{S}_{b}+\mathbf{S}_{b}^{\mathrm{T}}\right) \boldsymbol{w}+\lambda\left(\mathbf{S}_{w}+\mathbf{S}_{w}^{\mathrm{T}}\right) \boldsymbol{w} \end{aligned}$

$\frac{\partial L\left ( \mathbf{\omega} ,\mathbf{\lambda} \right )}{\partial \omega } =-2S_{b}\omega +2\lambda S_{\omega }\omega$
根据导数为零，有
$-2S_{b}\omega +2\lambda S_{\omega }\omega =0$
$S_{b}\omega =\lambda S_{\omega }\omega$

根据上面 $S_{b}$ 的定义有
$\left ( \mu _{0}-\mu _{1} \right ) \left ( \mu _{0}-\mu _{1} \right ) ^{T} \omega =\lambda S_{\omega }\omega$
令 $\left ( \mu _{0}-\mu _{1} \right ) ^{T} \omega = \gamma$ ，则有
$\left ( \mu _{0}-\mu _{1} \right )\gamma =\lambda S_{\omega }\omega$
则得到， $\omega =\frac{\gamma }{\lambda } S_{\omega}^{ -1} \left ( \mu _{0} -\mu _{1} \right )$

在这里，w的方向直接决定分类的好坏，而其模长并不是需要考虑的，因此 $\frac{\gamma }{\lambda }$ 的大小并不重要，因此为简便计算，可以令其等于1。

思考问题：此时用拉格朗日乘子法求出来的极值点一定是最小值点吗？
答案：是的。因为 $\quad -\omega ^{T} S_{b} \omega=-\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \| _{2}^{2} \le 0$ ，最大值为0，且存在极值点，因此，当极值点带入且不等于0的时候，一定是极小值点。

广义特征值

设 $\mathbf{A,B}$ 为n阶方阵，若存在数 $\lambda$ ，使得方程 $\mathbf{Ax} =\lambda \mathbf{Bx}$ 存在非零的解，则称 $\lambda$ 为A相对于B的广义特征值，x为A相对于B的属于广义特征值 $\lambda$ 的特征向量。
另外，当 $\mathbf{B=I}$ （单位矩阵）的时候，广义特征值问题退化为标准特征值问题。

广义瑞利商

设 $\mathbf{A,B}$ 为n阶厄米（Hermitian）矩阵，且 $\mathbf{B}$ 正定，称 $R\left ( x \right ) =\frac{x^{H}Ax }{x^{H}Bx} \left ( x\ne 0 \right )$ 为 $\mathbf{A}$ 相对 $\mathbf{B}$ 于的广义瑞利商。特别地，当 $\mathbf{B=I}$ （单位矩阵）时，广义瑞利商退化为瑞利商。
【定义】厄米（Hermitian）矩阵
将一矩阵 $\mathbf{A}$ 的行与列互换，并取各矩阵元素的共轭复数，得一新矩阵，称为厄米特共轭，以 $\mathbf{A+}$ 表之。此厄米特共轭有 $\left ( AB \right ) ^{+} =B^{+}A^{+}$ 的性质。
举一个自共轭矩阵的例子：
$\mathbf{A} =\begin{pmatrix} 2&3+i \\ 3-i&2 \end{pmatrix}$

广义瑞利商的性质：设 $\lambda _{i}$ , $_{i} \left ( i=1,2,\dots ,n \right )$ 为A相对于B的广义特征值和特征向量，且 $\lambda _{1} \le \lambda _{2} \le\dots \le\lambda _{n}$ 。
$\min_{x\ne 0} R\left ( x \right ) =\frac{x^{H}Ax }{x^{H}Bx} =\lambda _{1} ,x^{*}=x_{1}$
$\min_{x\ne 0} R\left ( x \right ) =\frac{x^{H}Ax }{x^{H}Bx} =\lambda _{n} ,x^{*}=x_{n}$

总结：本次课程主要是线性判别回归，属于分类的范畴，是一种经典的线性学习方法。主要是通过设计投影方向，使得同类样本之间投影点距离尽可能靠近，异类样本之间的距离尽可能的远，这样对于新样本经过投影后就非常容易判别分类。然后引出相关数学公司，并主要结合广义瑞利商等公式定理来求解 $\omega$ 。

参考资料与文献

1、周志华. 机器学习[M]. 北京：清华大学出版社，2016.
2、谢文睿秦州贾彬彬 . 机器学习公式详解第 2 版[M]. 人民邮电出版社，2023
3、感谢Datawhale小组所做的贡献，本次学习主要参考视频：https://www.bilibili.com/video/BV1Mh411e7VU/?p=6&spm_id_from=333.880.my_history.page.click&vd_source=7f1a93b833d8a7093eb3533580254fe4。