主成分分析【PCA】

最新推荐文章于 2023-02-15 00:28:52 发布

宁悦

最新推荐文章于 2023-02-15 00:28:52 发布

阅读量545

点赞数 1

分类专栏：机器学习文章标签：主成分分析 PCA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/deramer1/article/details/89465368

版权

本文详细介绍了主成分分析（PCA）的概念，探讨了如何使用PCA解决过拟合问题。PCA通过降维来减少冗余特征，最大投影方差角度和最小重构距离角度是其关键考虑因素。通过SVD等方法找到主要特征向量，并展示了PCA在半导体数据集上的应用，证实其在保持数据信息的同时有效减少特征数量。

摘要由CSDN通过智能技术生成

一、背景

在讲PCA之间，我们先来讨论一下过拟合的问题。通常遇到过拟合，会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下，我们一般采取正则化来避免过拟合。但除了正则化之外，我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。

为什么降维可以解决过拟合的问题？

在我们通常收集的数据中，有很多特征是可以由其他特征推测出来，或者两个特征其实是描述的同一件事情。比如，描述人的身高这个特征，数据集是由不同的人收集的，有的人用米和厘米表示身高，有的人用英尺和英寸表示身高，但他们都是描述的一个属性，如果能找到这些属性把他们去掉，就能很好的处理数据。PCA就可以完成这个事情。PCA就是将N维特征映射到K维上，这K个维度是正交的特征。

现在把PCA运用到一个拥有590个特征的半导体数据集上，然后计算他的方差百分比、和累积方差百分比（用来衡量数据与原始数据的偏差程度），可以看出只保留前6个主成分，达到的累积方差百分比为96.8%，而20个主成分，几乎达到100%。剩下的500多个特征都是多余的特征。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
主成分分析【PCA】

一、背景在讲PCA之间，我们先来讨论一下过拟合的问题。通常遇到过拟合，会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下，我们一般采取正则化来避免过拟合。但除了正则化之外，我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。为什么降维可以解决过拟合的问题？在我们通常收集的数据中，有很多特征是可以由其他特征推测出来，或者两个特征其实是描述的同一件事情。比如，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。