机器学习之PCA

最新推荐文章于 2022-08-25 18:23:27 发布

sharon@zhang

最新推荐文章于 2022-08-25 18:23:27 发布

阅读量2.6k

点赞数 3

分类专栏：机器学习文章标签：机器学习人工智能 sklearn python

本文链接：https://blog.csdn.net/baidu_41797613/article/details/121844644

版权

本文探讨了机器学习中的PCA降维技术，包括特征选择方法、PCA与SVD原理及sklearn库的实现。PCA利用样本方差衡量信息量，通过特征值分解找到新特征向量，实现数据降维。

摘要由CSDN通过智能技术生成

在降维过程中，我们会减少特征的数量，这意味着删除数据，数据量变少则表示模型可以获取的信息会变少，模型的表现可能会因此受到影响。同时，在高维数据中，必然有一些特征是不带有有效的信息的，比如噪声，还有一些特征带有的信息和其他一些特征是重复的（比如一些特征可能会线性相关）。

我们希望能够找出一种方法，可以帮助我们衡量特征上所带的信息量，让我们在降维的过程中，能够即减少特征的数量，又保留大部分有效信息。比如将那些带有重复信息的特征合并，并删除那些带有无效信息的特征等等–逐渐创造出能够代表原特征矩阵大致信息量的，特征更少的新特征矩阵。

1、特征选择方法

方差过滤
如果一个特征的方差很小，则意味着这个特征上很大可能有大量取值都相同（比如90%都是1，只有10%是0，甚至100%都是1），那这一个特征的取值对样本而言就没有区分度，这种特征就不带有有效信息。从方差的这种应用就可以推断出，如果一个特征的方差很大，则说明这个特征上带有大量的信息。因此，在降维中，PCA使用的信息量衡量指标，就是样本方差，又称可解释性方差，方差越大，特征所带的信息量就越多。

在这里插入图片描述
Var代表一个特征的方差，n代表样本量，xi代表一个特征中的每个样本取值，xhat代表这一列样本的均值。

2、面试高危问题

方差计算公式中为什么除数是n-1？
这是为了得到样本方差的无偏估计，更多大家可以自己去探索。

3、降维实现

3.1 sklearn中的库

class sklearn.decomposition.PCA(n_components=None, *, copy=True, whiten=False, svd_solver='auto', tol=0.0, iterated_power='auto', random_state=None)

参数：
1.n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目。最常用的做法是直接指定降维到的维度数目，此时n_components是一个大于等于1的整数。当然，我们也可以指定主成分的方差和所占的最小比例阈值，让PCA类自己去根据样本特征方差来决定降维到的维度数，此时n_components是一个（0，1]之间的数。当然，我们还可以将参数设置为"mle", 此时PCA类会用MLE算法根据特征的方差分布情况自己去选择一定数量的主成分特征来降维。我们也可以用默认值，即不输入n_components，此时n_components=min(样本数，特征数)

2.copy：类型：bool，True或者False，缺省时默认为True。意义：表示是否在运行算法时，将原始训练数据复制一份。若为True，则运行PCA算法后，原始训练数据的值不会有任何改变，因为是在原始数据的副本上进行运算；若为False，则运行PCA算法后，原始训练数据的值会改，因为是在原始数据上进行降维计算

3.whiten ：判断是否进行白化。所谓白化，就是对降维后的数据的每个特征进行归一化，让方差都为1.对于PCA降维本身来说，一般不需要白化。如果你PCA降维后有后续的数据处理动作，可以考虑白化。默认