机器学习（Machine learning）10——PCA algorithm（主成分分析法）

最新推荐文章于 2023-07-17 01:28:03 发布

江南曾听风

最新推荐文章于 2023-07-17 01:28:03 发布

阅读量265

点赞数

分类专栏：机器学习深度学习 PCA 文章标签：机器学习深度学习人工智能支持向量机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41116319/article/details/125205099

版权

机器学习同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

文章目录

一、What is about PCA?
二、PCA algorithm
三、Choosing the number of principal components (k)
四、Application of PCA
五、Bad use of PCA

一、What is about PCA?

PCA——Principal Components Analysis, it is an algorithm of unsupervised learning。为了更好的理解PCA，用下面例子来说明PCA的工作原理。

若在二维平面上有一组未被标签的数据，如图所示:
在这里插入图片描述
我们试图找一条直线或一个平面，或其他维的空间，然后对数据进行投影，以最小化投影误差的平方。即使下方蓝色线段平方的和最小。

所以找出这条直线的过程就是PCA算法实现的过程。

注：要区别开来linear regression algorithm与PCA algorithm，虽然他们两个原理有点类似，但还是不一样的。如下图所示:
在这里插入图片描述

二、PCA algorithm

降维:
在这里插入图片描述

下图是二维降一维的例子:

即也可以重构原来的点:

三、Choosing the number of principal components (k)

在这里插入图片描述

四、Application of PCA

Data compression
Speed up learning algorithm

在某些情况下应用PCA可以加快学习算法的执行效率。注：应用PCA仅仅应用在training set上，不能用在cross-validation和test set上。PCA大概可以减少数据的1/5或1/10。

Visualization

五、Bad use of PCA

To prevent overfitting

此方法可能防止过拟合的效果也很好，但还有一种更好的方法来解决:Regularization。

因为PCA doesn’t use the lable y, just use inputs x. It will throw away some information and don’t care about what the values of y is.如果99%或95%的方差信息被保留，使用PCA是可以的。但也可能去掉一些有价值的信息。

People sometimes use PCA where it shouldn’t be.

所以在使用PCA之前，首先尝试用x，否则除非你有理由相信这样做无效，必须要用到PCA。

江南曾听风

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。