机器学习之线性判别（算法详细推导）

Diana003

已于 2022-01-22 14:25:41 修改

阅读量655

点赞数

分类专栏：机器学习理论推导文章标签：机器学习概率论分类

于 2022-01-22 14:22:51 首次发布

本文链接：https://blog.csdn.net/Diana003/article/details/122637110

版权

机器学习理论推导专栏收录该内容

9 篇文章 0 订阅

订阅专栏

线性判别法LDA——P60

主要思想

需要找一条直线，希望各点投影在该直线上后，希望同一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。量化这两点感官，则需满足异类点的中心距离远，同类点的方差小.

模型建立

假设我们有数据集 $D=\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\}$ ，其中任意样本 $x_i$ 为n为向量， $y_i\in\{0,1\}$ ，我们定义

$X_i(i=0,1)$ 为第 $i$ 类样本的集合，
$X_i(i=0,1)$ 为第 $i$ 类样本的个数，
$a_i(i=0,1)$ 为第 $i$ 类样本的投影中心点（是一个向量）,
$\mu_i(i=0,1)$ 为第 $i$ 类样本的中心点
$S_i(i=0,1)$ 为第 $i$ 类样本的方差
$\Sigma_i(i=0,1)$ 为第 $i$ 类样本的协方差矩阵

根据投影的知识可得

点 $x_{i1},x_{i2})$ 在直线 $w_1x_1+w_2x_2=0$ 上的投影相当于向量 $x_{i1},x_{i2})$ 在向量 $w_1,w_2)$ 上的投影，即为向量 $x_{i1},x_{i2})$ 与向量 $w_1,w_2)$ 的点积 $x_i)^Tw$

则有

$a_i=\frac{1}{\#X_i}\sum_{j\in X_i}(x_j)^Tw~~~~~~~~\\ =(\frac{1}{\#X_i}\sum_{j\in X_i}(x_j)^T)w\\ =\mu_iw~~~~~~~~~(i=0,1)$

$S_i=\sum_{j\in X_i}((x_j)^Tw-a_i)^2~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ \\ =\sum_{j\in X_i}(((x_j)^T-\mu_i)w)^2~~~~~~~~~~~~~~~（1）\\ =\sum_{j\in X_i}((x_j-\mu_i)^Tw)^2~~~~~~~~~~~~~~~~~~~（2）\\ =\sum_{j\in X_i}w^T(x_j-\mu_i)(x_j-\mu_i^T)w~~~（3）\\ =w^T(\sum_{j\in X_i}(x_j-\mu_i)(x_j-\mu_i)^T)w~~~~~~~~~\\ =w^T\Sigma_iw.~~~~~(i=0,1)~~~~~~~~~~~~~~~~~~~~~~~~~~~$

其中(1)由 $a_i$ 的表达式代入得到
(2)由于 $\mu_i$ 是数，一个数点转置还是它本身
(3)根据 $x^Ty)^2=(x^Ty)(x^Ty)=(x^Ty)^T(x^Ty)=y^Txx^Ty$ 其中 $x^Ty$ 为一个数

根据主要思想，我们建立以下目标函数

由于我们希望| $a_1-a_2$ |尽可能大， $S_1+S_2$ 尽可能小，即可建立目标函数

$由于\min~~ |a_1-a_2|=>\min ~~(a_1-a_2)^2\\ \max\limits_{w}\frac{(a_1-a_2)^2}{S_1+S_2}$

下面求解 $a_1-a_2)^2$ 和 $S_1+S_2$

$(a_1-a_2)^2=((\mu_1-\mu_2)w)^2=w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw\\ S_1+S_2=w^T(\Sigma_1+\Sigma_2)w$

最终确立目标函数为

$\max\limits_w=\frac{w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw}{w^T(\Sigma_1+\Sigma_2)w}$

根据拉格朗日乘子法得到最优权重为

$w^*=(\Sigma_1+\Sigma_2)^{-1}(\mu_1-\mu_2)$

当 $\Sigma_1+\Sigma_2$ 不可逆的时候采用 $w^*=(\Sigma_1+\Sigma_2+\lambda I)^{-1}(\mu_1-\mu_2)$

二分类

计算每个类别点集的中心点 $\mu_i$
计算每个类别点集的协方差矩阵 $\Sigma_i$
计算类间散度矩阵 $S_w=\Sigma_1+\Sigma_2$
判断 $S_w$ 是否可逆（在python中用np.linalg.det（）求解矩阵A的行列式|A|，如果行列式为0，不可逆，否则可逆。）
- 若可逆，则 $w^*=S_w^{-1}(\mu_1-\mu_2)$
- 若不可逆，则 $w^*=(S_w+\lambda I)^{-1}(\mu_1-\mu_2)$