机器学习-二分类线性判别分析

最新推荐文章于 2023-07-31 20:32:04 发布

第三人称&寒飔

最新推荐文章于 2023-07-31 20:32:04 发布

阅读量1.2k

点赞数 1

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_46250749/article/details/121409861

版权

前言

本文主要记录了有关机器学习问题线性模型中的二分类线性判别分析的内容，思路均来源于周志华老师《机器学习》第三章3.4部分的内容。

一、线性判别分析(LDA)算法原理

算法思想:对于给定训练样例集，设法将样例投影到一条直线上，使同类样例尽可能近、异类样例投影尽可能远离；对新样本进行分类时，将其投影到同样的直线上，根据投影点位置来判定类别。

从几何角度上：让全体训练样本经过投影之后，异类样本的中心尽可能远，同类样本的方差尽可能小。

对于给定的数据集 $D=\left \{ (xi,yi) \right \}_{i=1}^{m}$ ，其中 $xi$ 为 $n$ 维的特征向量 $R^{n}$ ， $yi\epsilon \left \{ 0,1 \right \}$ 为标记， $i=1,2,...m$ 。

令 $X_{i}$ ， $\mu _{i}$ ， $\sum_{i}$ ，分别表示第 $i\epsilon \left \{ 0,1 \right \}$ 类示例的集合、均值向量、协方差均值，此时 $i$ 表示 $yi$ 的取值。以下通过例子解释：

二、损失函数的推导

2.1初步条件推导

① 经过投影后，异类样本的中心尽可能远（非严格投影）：

投影长度为： $max\left \| \left | \mu _{0} \right | \cdot cos\theta _{0}-\left | \mu _{1} \right | \cdot cos\theta _{1}\right \|^{2}_{2}$ ，

经过同乘 $\omega$ 模长，转化为向量内积之差，简化因为存在 $\theta _{1}$ 、 $\theta _{0}$ 带来的计算难度：

等价于： $max\left \|\left | \omega \right |\cdot \left | \mu _{0} \right | \cdot cos\theta _{0}-\left | \omega \right |\cdot \left | \mu _{1} \right | \cdot cos\theta _{1}\right \|^{2}_{2}$ ；

即为： $max\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \|^{2}_{2}$ 。

注：二范数=模，对于 $a=(a_{1},a_{2})$ ， $\left \| a \right \|_{2}=\sqrt{(a_{1}^{2}+a_{2}^{2})}$ ，对应 $\left \| a \right \|^{2}_{2}=a_{1}^{2}+a_{2}^{2}$ 。

②经过投影后，同类样本的方差尽可能小（非严格方差）：

已知两类样本协方差均值为 $\sum _{0}$ 、 $\sum _{1}$ ，对应两类样本协方差分别为： $\omega ^{T}\sum _{0}\omega$ 、 $\omega ^{T}\sum _{1}\omega$ ，若使得同类方差尽可能小，即： $min\omega ^{T}\sum _{0}\omega$ ；

代入协方差的表达式（ $\frac{1}{m_{0}}$ 乘积项可以省略）：

等价于： $min\sum_{x\epsilon X_{0}}^{}(x-\bar{x})^{2}$ 。

2.2最大化目标

综合以上两个方面的优化目标，可以得到欲最大化的目标： $J$ ，并对其表达形式进行化简：

令 $S_{\omega }=\sum_{0}+\sum _{1}$ , $S_{b}=(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T}$ ，则上式可转化为： $maxJ=\frac{\omega ^{T}S_{b}\omega }{\omega ^{T}S_{\omega }\omega}$ 。

由于此时中分母和分子均是关于 $\omega$ 的二次项，即此式的解与 $\omega$ 无关，仅仅与其方向有关。

不失一般性，令 $\omega ^{T}S_{\omega }\omega=1$ ，则等价于(习惯转化为最小化问题)：

三、拉格朗日乘子法求解 $\omega$

3.1拉格朗日乘子法

对于仅含等式约束的优化问题： $min f(x),s.t.h_{i}(x)=0 ,i=1,2,...,n$ ，其中自变量 $x\epsilon R^{n}$ ， $f(x)$ 与 $h_{i}(x)$ 均有连续的一阶偏导数。可以列出其拉格朗日函数：

$L(x,\lambda )=f(x)+\sum_{i=1}^{n}\lambda _{i}h_{i}(x)$ ，其中 $\lambda =(\lambda _{1},\lambda _{2},\lambda _{3},...,\lambda _{n})^{T}$ 为拉格朗日乘子向量。只要对拉格朗日函数关于 $x$ 求偏导，并令导数等于0再搭配约束条件即可解出 $x$ ，求解出所有的 $x$ 即为上述优化问题所有可能解（对应为极值点处）。

3.2求解 $\omega$ 的值

故得到等式： $\omega =\frac{\gamma }{\lambda }S^{-1}_{\omega }(\mu _{0}-\mu _{1})$ ，由于最终要求解的 $\omega$ 不关心其大小，只关心其方向：

① $\frac{\gamma }{\lambda }$ 常数项可以取任意值，如不妨取 $\gamma =\lambda$ ，则此时可以求解出 $\omega =S^{-1}_{\omega }(\mu _{0}-\mu _{1})$ 。

②此处不用严格按照拉格朗日乘子法刻意考虑约束条件。

验证计算出来的价值点是否为最小值点：

由于 $-\omega ^{T}S_{b}\omega =-\left \| \omega ^{T}\mu _{0}- \omega ^{T}\mu _{1} \right \|^{2}_{2}\leqslant 0$ ，故对应目标函数的最大值为0，且必然存在最小值，则对应求解出 $\omega$ 为最小值对应点。