PCA和Fisher LDA

最新推荐文章于 2021-11-25 10:46:21 发布

taoqick

最新推荐文章于 2021-11-25 10:46:21 发布

阅读量316

点赞数

分类专栏：算法机器学习

本文链接：https://blog.csdn.net/taoqick/article/details/103000176

版权

算法同时被 2 个专栏收录

474 篇文章 6 订阅

订阅专栏

机器学习

73 篇文章 0 订阅

订阅专栏

PCA

PCA主要用于没有标签的降维，想法就是把数据投影在某个方向上，使得信噪比最大，也就是投影的方差最大。

对于给定的一组数据 $x_1, x_2,...,x_n$ ，其中每一个都是列向量，假设投影方向的单位列向量是w，投影后的方差可以表示为
$D(x)=\frac{1}{n}\sum_{i=1}^n(x_i^Tw)^2\\ D(x)=\frac{1}{n}\sum_{i=1}^n(x_i^Tw)^T(x_i^Tw)\\ D(x)=w^T[\frac{1}{n}\sum_{i=1}^n(x_ix_i^T)]w$
中间刚好是协方差矩阵 $\Sigma$ ，所以目标函数就是
$\argmax_w w^T\Sigma w \\ s.t. w^Tw=1$
所以拉格朗日乘数法就上了，可以推出
$D(x)=w^T\Sigma w=\lambda w^T w=\lambda$
所以x投影后的方差就是协方差矩阵的特征值，投影的方向就是特征值对应的特征向量。哪个投影方向好就是特征值较大的方向，最后取特征值较大的特征向量的方向。

Fisher LDA

Fisher LDA是有监督的降维，降维目标是类间距离和类内距离的比值达到最大，也就是
$J(w)=\frac{w^T(u_1-u_2)(u_1-u_2)^Tw}{\sum_{x \in C_i}w^T(x-u_i)(x-u_i)^Tw} \\ S_B=(u_1-u_2)(u_1-u_2)^T\\ S_W=\sum_{x \in C_i}(x-u_i)(x-u_i)^T\\$
其中 $u_i$ 表示第i类的均值向量， $S_B$ 和 $S_W$ 可以看成是类间和类内的散列矩阵
问题可以简化成
$J(w)=\frac{w^TS_Bw}{w^TS_Ww}$
我们要最大化 $J (w)$ ，对它求偏导。先补充一点矩阵偏导的推导，利用迹trace。如果A是方阵，w是列向量，那么可以有以下表达式，这个如果直接求容易被矩阵绕晕掉：
$f(w)=w^TAw\\ \frac{\partial f(w)}{\partial w}=w^T(A^T+A)$
推导可以利用迹trace，如下：
$df(w)=(dw)^TAw+w^TAdw\\ tr[df(w)]=tr([dw)^TAw]^T+w^TAdw)\\ tr[df(w)]=tr(w^TA^Tdw+w^TAdw)$
所以最后 $\frac{\partial f(w)}{\partial w}$ 是一个列向量，如果想把它变成行向量再转置一个就好。
有了推导的方法，可以得到
$w^TS_Ww)S_Bw=(w^TS_Bw)S_Ww$
$w^TS_Bw)$ 和 $w^TS_Ww)$ 是两个数，可以令 $\lambda=J(w)$ ，所以可以得到
$S_W^{-1}S_Bw=\lambda w$
所以这个问题也变成了求矩阵特征值的解法
最后还有两点需要注意：

对于二分类，由于 $S_B=(u_1-u_2)(u_1-u_2)^T$ ，因此最终投影方向 $S_Bw$ 和均值方向的差 $u_1-u_2)$ 是一样的。因为 $u_1-u_2)^Tw$ 是个数字
如果只考虑方向，不考虑长度，可以得
$S_W^{-1}k(u_1-u_2)=\lambda w$
也就是说，可以只算样本的均值和类的方差，就可以快速得到投影方向w

更多内容参考葫芦书

taoqick

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PCA和Fisher LDA

PCAPCA主要用于没有标签的降维，想法就是把数据投影在某个方向上，使得信噪比最大，也就是投影的方差最大。对于给定的一组数据x1,x2,...,xnx_1, x_2,...,x_nx1,x2,...,xn，其中每一个都是列向量，假设投影方向的单位列向量是w，投影后的方差可以表示为D(x)=1n∑i=1n(xiTw)2D(x)=1n∑i=1n(xiTw)T(xiTw)D(x)=wT[1n...
复制链接

扫一扫

专栏目录