PCA算法（主成分分析）

最新推荐文章于 2024-01-01 15:15:46 发布

totodum

最新推荐文章于 2024-01-01 15:15:46 发布

阅读量6.6k

点赞数 1

分类专栏：机器学习文章标签：机器学习算法压缩

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/totodum/article/details/51049165

版权

PCA（主成分分析）是一种通过基变换提取数据主要成分并降低维度的技术。通过分析向量空间的主成分，PCA可以将高维数据投影到低维空间，同时最大化方差以保留关键信息。主要步骤包括计算协方差矩阵、特征分解和选择最大特征值对应的特征向量作为新基。PCA常用于数据压缩、可视化和特征提取。

摘要由CSDN通过智能技术生成

写在前面

Principle Component Analysis 顾名思义，是通过分析向量空间的主成分，将主成分提取出来，不重要的成分略去，从而达到降维压缩信息的目的。

那什么才是主成分呢？大家应该知道，一个空间会有自己的一组基向量，空间中的任何一个向量都可以通过基向量的组合来表示。

举个栗子，假如我们有一组2维的点，那么我们可以找到2个基向量，让这一组点对着这2个基向量进行投影。每个基向量上，投影后的点越分散，这个基向量就越重要。也就是主成分。不明白的看下图。（原谅我的灵魂画作）

这里写图片描述

红色的点就是已有的一组2维点，黄色和蓝色的线代表两个基向量的方向。如果我们要把红色的点从2维降到1维，向哪个方向投影才能保存更多的信息呢？直观上看，当然是黄向量比较好，红点在黄线上的投影很分散，而在蓝线上的投影很多会重叠在一起。黄向量就是比蓝向量更主要的成分。

好了，我们现在知道什么是主成分了，那怎么才能把它提取出来呢？一般是通过对红点各维的协方差矩阵进行特征分解，选取最大的几个特征值对应的特征向量，组成低维空间的一组基向量。再将原始的红点投影到这组低维基向量上，就得到了红点降维后的坐标。这中间涉及到一些数学的计算和解释，就放在下面了。

投影

向量的内积相当于投影，

 A * B = |A||B|cos(a)

|B|=1时，

 A * B= |A|cos(a)

此时，A和B的内积相当于A向B方向投影的长度。

另外，当新基的原点与原基的原点不同时，要先进行变换使原点重合。

讨论二维空间基变换

在我们常用的笛卡尔坐标系中，一点(x,y)可以分解为

 x = r * cos(θ)   y = r * sin(θ)

相当于把向量(x,y)投影到两个基向量上，

 (1,0) 和 (0,1)

x和y相当于投影后的长度。

一个向量的准确描述需要给出一组基，以及向量在各个基方向上的投影长度。

注意：不管变换什么样的基向量，向量相对于原点的位置是不变的。

例：将基本基上的坐标(3,2)变换为基(1/√2,1/√2)、(-1/√2,(1/√2))的坐标。
（注意，新基的坐标是在基本基上确定的）

⎛ ⎝ ⎜ ⎜ ⎜ 1 2 \sqrt - 1

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。