一、背景
在讲PCA之间,我们先来讨论一下过拟合的问题。通常遇到过拟合,会有两种方式解决。增加训练的数据、正则化。在数据很难增加的情况下,我们一般采取正则化来避免过拟合。但除了正则化之外,我们也可以采取降维的方式来解决这个问题。下面是解决过拟合的方式。
为什么降维可以解决过拟合的问题?
在我们通常收集的数据中,有很多特征是可以由其他特征推测出来,或者两个特征其实是描述的同一件事情。比如,描述人的身高这个特征,数据集是由不同的人收集的,有的人用米和厘米表示身高,有的人用英尺和英寸表示身高,但他们都是描述的一个属性,如果能找到这些属性把他们去掉,就能很好的处理数据。PCA就可以完成这个事情。PCA就是将N维特征映射到K维上,这K个维度是正交的特征。
现在把PCA运用到一个拥有590个特征的半导体数据集上,然后计算他的方差百分比、和累积方差百分比(用来衡量数据与原始数据的偏差程度),可以看出只保留前6个主成分,达到的累积方差百分比为96.8%,而20个主成分ÿ