PCA降维深入理解

最新推荐文章于 2024-09-05 23:36:04 发布

天天撸代码

最新推荐文章于 2024-09-05 23:36:04 发布

阅读量4.1k

点赞数

文章标签： PCA 特征选取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012033832/article/details/81301052

版权

网上资料非常多，大部分都是讲先求协方差，协方差怎么求的，但是没有讲为什么要求协方差，为什么要选特征值最大的特征，特征值最大到底代表了什么含义。

简单回忆：

计算协方差到底是选行还是选列呢，记住协方差矩阵是计算不同维度间的协方差，不是两个样本间的，所以我们求协方差的目的就是计算不同纬度之间的相关性，并选出特征值最大的前多少个纬度，把特征值小的纬度去掉，起到一个降维的作用

PCA定义：，表示特征列X 与特征列Y之间的相关性。

假设刚开始有一堆如下所示的数据

这堆数据的协方差矩阵就是一个单位矩阵 $\sum =\begin{vmatrix} 1 &0 \\ 0&1 \end{vmatrix}$

如果我们想把这样一堆数据变成如下所示，此时协方差矩阵已经变成 $\begin{bmatrix} 3 & 2 \\ 2 & 3 \end{bmatrix}$ ，而这个矩阵的特征值为1和5 特征向量分别为[-1,1] 与 [1,1]，标准正交基为[-1/2,1/2] 与 [1/2,1/2]，下图可以看做是上图经过了旋转与缩放两个变换而来，D` = RSD，R为旋转矩阵，S为缩放矩阵，因为 $S^{\\T}=S$ 且 $R^{\\T}=R^{\\-1}$ （S为对角矩阵、R为正交矩阵），所以D`的协方差矩阵为 $RSSR^{\\-1}$ （D`减去均值乘以D`的转置再除以N-1），另一方面通过对协方差矩阵进行特征值分解可以得 $\sum = VL^{\\-1}V$ ，V为特征向量，L为特征值，对L开根号，即L=SS， $\sum = VL^{\\-1}V=RSSR^{\\-1}$ ，所以说特征向量就是对图像做一个旋转的操作，而特征值就是做一个缩放的操作。

从另一个角度来看N个特征向量就是N个标准正交基，而特征值的模则代表矩阵在每个基上的投影长度。特征值越大，说明矩阵在对应的特征向量上的方差越大，功率越大，信息量越多。

最大特征值对应的特征向量，总是指向数据最大方差的方向，并由此确定其方位。次特征向量总是正交于最大特征向量

天天撸代码

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

天天撸代码 CSDN认证博客专家 CSDN认证企业博客

码龄11年

19: 原创

25万+: 周排名

215万+: 总排名

7万+: 访问

: 等级

863: 积分

18: 粉丝

39: 获赞

19: 评论

119: 收藏

私信

关注

热门文章

最新评论

补码(为什么按位取反再加一)：告诉你一个其实很简单的问题
做而论道_CS: 学习计算机，首先要掌握下面两条： 1. 在计算机中，只有加法器。　负数或减法，都必须用补码的加法来运算。 2. 计算机进行运算时，位数，是固定的。　八位机的每次计算，就只用到八位二进制数。那么，14－14 = 0，八位机将如下计算：　　0000 1110＋xxxx xxxx = 0000 0000。其中的 xxxx xxxx，就是【－14 的八位补码】。这个补码，究竟是什么？　你自己就能推导出来！先移项：xxxx xxxx = 0000 0000－0000 1110。可得出：xxxx xxxx = (借位 1) 1111 0010。取八位：xxxx xxxx = 1111 0010。于是，就求得了：[－14]补码 = 1111 0010。负数的补码，就是这么推出来的。补码，和 “符号位原码反码取反加一”，一丁点的关系，都没有！－－－－－－－－－－－－－－－－－－－－－－－实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这还用算？　0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！－－－－－－－－－－－－－－－－－－－－－－－求补码，就是这么简单！真值机器数符号位原码反码取反加一符号位不变模同余 ... 这一大滩垃圾，并无任何用处。你就是全学会了，你也不可能理解 “减法怎么变加法” ！－－－－－－－－－－－－－－－－－－－－－－－由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0001，它代表的十进制是：－128 + 64 + 32 + 1 = －31。如果，另一个补码：0110 0001，它代表的十进制是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了！
信息熵通俗易懂的例子
ppeterpp: 知道其他三匹的输赢自然就知道剩下那匹，我是这么理解
信息熵通俗易懂的例子
KAM YAN: 因为只有四个答案，假设前三个全错那么第四个就是正确答案
偏差和方差与过拟合欠拟合的关系
cauwenyakun: 棒！
信息熵通俗易懂的例子
浅浅的慢慢: 因为问了三次，如果都不是第四个就肯定是，不用再去判断

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。