（系列笔记）26.主成分分析——PCA（上）

最新推荐文章于 2022-06-10 16:33:32 发布

WNotSyer

最新推荐文章于 2022-06-10 16:33:32 发布

阅读量1k

点赞数 2

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/qq_41909317/article/details/88671519

版权

PCA——利用数学工具提取主要特征泛滥成灾的特征维度降低数据维度主成分分析（PCA）的原则PCA 的优化目标

摘要由CSDN通过智能技术生成

文章目录

PCA——利用数学工具提取主要特征

PCA——利用数学工具提取主要特征

泛滥成灾的特征维度

维度灾难

维数灾难（Curse of Dimensionality，也可以直接翻译为“维度诅咒”）是一种在分析或组织高维（通常是几百维或者更高维度）数据时会遇到的现象。既然叫灾难或者诅咒，可见不是好现象。

这个说法，最早是由理查德 · 贝尔曼（Richard E. Bellman）——美国应用数学家，同时也是动态规划算法的创始人——提出来的。

他是在思考动态优化的过程中发现了这件事：当数据维度增加时，由于向量空间体积呈指数级增加，会遇到许多在低维数据中很难出现的问题。比如:

100个平均分布的点能把一个一维的单位区间均分为100份，也就是说100个均匀分布的采样点就可以在一维的单位空间里形成精度为0.01的采样。而要在二维的单位空间里形成同样密度的采样，就需要10000个点；三维需要1000000个点；十维空间则需要 $10^{20}$ 个采样点……

那要是1000维呢？所需采样数根本就是天文数字，现实当中，我们怎么可能去找那么多样本数据？

以上是当年理查德 · 贝尔曼举的例子。

数据稀疏

其实这个问题反过来想更直接。

在现实生活中，无论我们是做统计分析还是机器学习，能获得的样本的数量（至少是量级）是相对固定的，毕竟现实数据都有其获取成本。

同样数量的样本，如果我们只选取一维特征，那么这些样本在特征空间中的密度肯定会比在二维、三维或者更高维度空间中大得多。

下图这个例子显示了20个样本，分别在一维、二维和三维空间中的分布：
在这里插入图片描述
而到了真正的高维，将稀疏到什么程度，可以想象。

数据稀疏对于任何要求有统计学意义的方法而言（无论是概率统计、数据挖掘，还是机器学习）都是一个问题。

一般而言，为了获得在统计学上可靠的结果，用来支撑这一结果的数据量随着特征维数的提高而呈指数级增长。

数据稀疏对机器学习的影响

数据稀疏对于机器学习的影响尤其大。

首先，机器学习本身就是建立在统计学习之上的。
-其次，在机器学习中有大量模型依据样本之间的相似度来对其进行判断，而往往样本的相似度由其在特征空间的相互距离决定，这就使得样本密度直接影响了样本属性。
此外，维度的增多还直接导致了对于计算能力需求的增大，从而在实践中对机器学习算法造成影响。

机器学习中，有时会出现这样的情况：在训练样本固定的情况下，特征维数增加到某一个临界点后，继续增加反而会导致模型的预测能力减小——这叫做休斯现象（Hughes Phenomenon，以其发现者 G. Hughes 命名）。

降低数据维度

降低维度的可能

虽然很多时候，“维数灾难”会被研究人员当作不处理高维数据的借口，但学术界对这一现象一直在进行研究。

由于本征维度的存在，众多降维方法的有效性得到了证明——也就是说，应用这些降维方法处理过的数据，虽然特征维度下降了，却没有丢失掉主要的属性信息。

注意：本征维度（Intrinsic Dimension）原本是信号处理中的概念。

信号的本征维度描述了需要用来表示信号的变量数量。对于含有 N个变量的信号而言，它的本征维度为M,M满足 $0\le M\le N$ ；本征维度指出，许多高维数据集可以通过削减维度降至低维空间，而不必丢失重要信息。

降维度方法

机器学习领域里讲的降维是指：采用某种映射方法，将原本高维空间中的数据样本映射到低维空间中。

降维的本质是学习一个映射函数 $y = f (x)$ ,其中 x 表示原始的高维数据，y 表示映射后的低维数据。

之所以降维后的数据能够不丧失主要信息，是因为原本的高维数据中包含了冗余信息和噪音，通过降维，我们减少了冗余，过滤了噪声，从而保留了有效的特征属性，甚至是提高了数据的精度——这当然是我们希望的情况。

降维算法多种多样，比较常用的有：PCA（Principal Component Analysis，主成分分析)、LDA（Linear Discriminant Analysis，线性判别分析）、LLE（Locally linear embedding，局部线性嵌入）、Laplacian Eigenmaps （拉普拉斯特征映射）等。

还有一些机器学习模型和方法，比如随机森林/决策树，聚类等，也可以用作降维的手段。

今天我们只讲其中最常用的一种——PCA，主成分分析。