主成分分析【PCA】

一、背景

在讲PCA之间,我们先来讨论一下过拟合的问题。通常遇到过拟合,会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下,我们一般采取正则化来避免过拟合。但除了正则化之外,我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。

为什么降维可以解决过拟合的问题?

在我们通常收集的数据中,有很多特征是可以由其他特征推测出来,或者两个特征其实是描述的同一件事情。比如,描述人的身高这个特征,数据集是由不同的人收集的,有的人用米和厘米表示身高,有的人用英尺和英寸表示身高,但他们都是描述的一个属性,如果能找到这些属性把他们去掉,就能很好的处理数据。PCA就可以完成这个事情。PCA就是将N维特征映射到K维上,这K个维度是正交的特征。

现在把PCA运用到一个拥有590个特征的半导体数据集上,然后计算他的方差百分比、和累积方差百分比(用来衡量数据与原始数据的偏差程度),可以看出只保留前6个主成分,达到的累积方差百分比为96.8%,而20个主成分ÿ

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值