南瓜书第三章\线性判别分析

最新推荐文章于 2024-10-04 22:36:54 发布

杨世颜

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量284

点赞数 10

文章标签：人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_78471905/article/details/142602452

版权

算法思想

线性判别分析一种经典的线性学习方法，适用于二分类问题。算法思想是：将给定样例投影到一条直线上，使得同类样本投影点尽可能相近，即同类样本方差小，异类样本投影点尽可能远离，即异类样本中心尽可能远离。

参数估计

给定数据集 $D={(x_i,y_i)}_{i=1}^m$ ， $y_i\in \left \{ 0,1 \right \}$ ，令Xi、μi、Σi分别表示第i∈{0,1}类示例的集合、均值向量、协方差矩阵，即 $\sum_{i}=\sum_{x\in X_0}(x-\mu _i)(x-\mu_i)^T$ 。若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为 $w^T\mu _0$ 和 $w^T\mu _1$ ，两类样本的协方差分别为 $w^T\sum_{0}w$ 和 $w^T\sum_{1}w$ 。

若同类样本方差尽可能小，则 $w^T\sum_{0}w+w^T\sum_{1}w$ 尽可能小；若异类样本中心尽可能远离，则 $\left \| w^T\mu _0-w^T\mu _1 \right \|_2^2$ 尽可能大。所以综合得到，

$J=\frac{\left \| w^T\mu _0-w^T\mu _1 \right \|_2^2}{w^T\sum_{0}w+w^T\sum_{1}w}$

尽可能大。变换得，

$J=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\sum_{0}+\sum_1)w}$

令，

$S_w=\sum_0+\sum_1$

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$

我们称 $S_w$ 为“类内散度矩阵”， $S_b$ 为“类间散度矩阵”。

则，

$J=\frac{w^TS_b w}{w^TS_w w}$

此为最大化目标，也是 $S_w$ 相对于 $S_b$ 的广义瑞利商。

我们可以用“拉格朗日乘子法”求 $w^*$ 。

因为我们不关心w的大小，只关心其方向，所以可以令分母为1，即 $w^TS_w w$ 为1.则式子等价于，

$min_w -w^TS_b w$

s.t. $w^TS_w w=1$

构建拉格朗日函数， $L(w,\lambda )=-w^TS_b w+\lambda (w^TS_w w-1)$ .

对w求偏导， $\frac{\partial L(w,\lambda)}{\partial w}=-2S_bw+2\lambda S_w w$ .

令上式为0， $(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_w w$ .

$(\mu_0-\mu_1)^Tw$ 为实数，由于我们不关心w的大小，所以可以令 $(\mu_0-\mu_1)^Tw=\lambda$ ，同时也不用约束条件 $w^TS_w w-1=0$ ，则得到 $w=S_w^{-1}(\mu_0-\mu_1)$ .

还可以把LDA推广到多分类任务中，定义“全局散度矩阵”

$S_t=S_b+S_w$

$S_t=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T$ .

可以使用 $S_t$ ， $S_b$ ， $S_w$ 中的任意两个来实现多分类LDA.

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。