PCA的一些理解

最新推荐文章于 2023-12-31 17:09:34 发布

Wiiliam527

最新推荐文章于 2023-12-31 17:09:34 发布

阅读量1.3k

点赞数 2

分类专栏：模式识别文章标签：模式识别特征降维

本文链接：https://blog.csdn.net/Wiiliam527/article/details/77844704

版权

PCA（主成分分析）是一种常见的特征降维方法，主要用来解决高维数据中的冗余和相关性问题。文章介绍了PCA的背景，包括特征冗余带来的问题，如计算成本增加和过拟合风险，并解释了降维的本质——找到最大线性无关组。PCA通过线性组合原始特征，构造新特征，最大化样本方差，使得新特征间互不相关。在实际操作中，PCA通过选取累计方差占比高的特征向量构建变换矩阵，将数据映射到低维空间，以达到降维目的。在训练和测试过程中，PCA都需要保持一致性，确保数据在同一特征空间中处理。

摘要由CSDN通过智能技术生成

  最近由于用Haar特征+Adaboost训练分类器时遇到了Haar特征太多导致计算特征空间时内存不足的问题，便想找一些特征降维的方法来缩减特征空间，在网上找了好久也没有找到针对Haar特征有什么有效的降维方法。于是又抱起周志华那本《机器学习》把PCA部分重新翻了一遍，虽然最后发现PCA对于我的问题帮助不大（因为PCA是无监督的，在降维过程中没有利用类别信息，导致降维过后样本反而更难以区分了。这又引出了另外一种降维方法LDA。当然，这都是后话），但还是收获颇多，对于特征降维也有了更深的一些认识。 

  既然PCA是用于降维的，那么我们首先要明确，为什么要降维呢？结合我的经验来看，主要有这么几点：1.在原始特征空间中，有些特征之间可能存在很大的相关性-多重共线性，导致这些特征相互之间是冗余的，降维可以减少这种冗余性，降低运算成本。例如我统计一个班某次月考的分数，共4个特征，分别是语数外分数和总分，那么毫无疑问总分是完全多余的一个特征，因为它可以由语数外这三个分数相加得出，我们完全可以将其抛弃而对原问题没有丝毫影响，这就是特征间的相关性。另外， 
 多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯；2.高维空间具有稀疏性，一维正态分布有