![a2025e7e-7c11-eb11-8da9-e4434bdf6706.png](http://p04.5ceimg.com/content/a2025e7e-7c11-eb11-8da9-e4434bdf6706.png)
今天这篇还是讲特征工程那一堆事,准确点说是数据预处理范畴内的,在做PCA降维时,我发现利用方差过滤出的主成分和利用PCA降维得到的主成分对应位置的方差有些不同:
VarianceThreshold:[90370.21684180899, 55277.04960170764, 51395.858083599174]
PCA:[176251.93379431,74196.48270488,55716.27982124]
之前说过PCA降维可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。如果数据其中某一特征的数值特别大的话,那么它在整个误差计算的比重上就很大。所以将数据投影到低维空间之后,整个投影会去努力逼近数值最大的那一个特征,而忽略数值比较小的特征。
在建模前我们不知道每个特征的重要性,这很可能导致了大量的信息缺失。为了“公平”起见,防止过分捕捉某些数值大的特征,我们就可以先对每个特征先进行标准化处理,使得它们的大小都在相同的范围内,然后再进行PCA。
我们要处理的数据往往有着不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除特征之间的量纲影响,需要进行数据标准化处理。原始数据经过数据标准化处理后,数据集中每个特征就处于同一数量级,适合进行综合对比评价。
上面文字叙述可能相对抽象,就先通过一个简单的例子深入了解一下标准化和归一化的重