数据降维（PCA算法在数据降维中的应用）

最新推荐文章于 2024-01-01 16:54:41 发布

薛定谔的猫王

最新推荐文章于 2024-01-01 16:54:41 发布

阅读量2.9k

点赞数 5

分类专栏：机器学习文章标签：人工智能机器学习数据挖掘线性代数算法

本文链接：https://blog.csdn.net/lxx909546478/article/details/107860211

版权

本文探讨了维度灾难现象以及如何通过主成分分析（PCA）进行数据降维。PCA通过找到数据的主要成分来减少特征数量，提高模型训练效率。文章详细介绍了PCA的算法流程、Python实现和数学原理，指出PCA在数据压缩、去噪方面的作用，但降维可能导致信息损失，需在信息量和维度之间寻找平衡。

摘要由CSDN通过智能技术生成

维度灾难

在实际问题中，我们常常会遇到采集到的数据特征数量过多的情况，甚至有时会出现训练集容量比特征数量还少的极端情况（在图片处理领域尤其常见），然而事实上，并不是采集到的每一个特征都对模型有训练意义。
维度的增加会导致相当棘手的情况出现，这通常会带来训练数据在高维空间的稀疏性质，为了获得在统计学上正确并且有可靠的结果，用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。
此外，维度的增加会使模型训练的时间增加到无法忍耐的程度。
对于这样的问题，对数据进行降维将是很重要的一个手段。

主成分分析法

有时候，我们会发现描述某些数据并不需要过多的特征。换句话说，使用为数不多的几个特殊特征就能将某个点确定下来。
在所有的特征中，有些特征是强力的，它体现在似乎其他特征都或多或少依赖于这个特征。而有些特征是很弱的，体现在该特征似乎对每一个样本都没有什么区分度，这意味着大量数据集中在一簇或几个簇。
举一个例子，对于一个合法公民来说，身份证号是一个“强”的特征，因为它区分度足够强，能够将数据分散成不同的簇。而身高是一个“没那么强”的特征，因为大量样本会在某个范围内聚簇。
同时我们注意到，如果我们有了几个足够强的特征，也许我们不需要那么多弱特征来对数据进行区分或者识别了。
主成分分析法（Principal components analysis，以下简称PCA）是一个来给数据进行降维相当常用的手段。