(系列笔记)26.主成分分析——PCA(上)

PCA——利用数学工具提取主要特征泛滥成灾的特征维度降低数据维度主成分分析(PCA)的原则PCA 的优化目标
摘要由CSDN通过智能技术生成

PCA——利用数学工具提取主要特征

泛滥成灾的特征维度

维度灾难

维数灾难(Curse of Dimensionality,也可以直接翻译为“维度诅咒”)是一种在分析或组织高维(通常是几百维或者更高维度)数据时会遇到的现象。既然叫灾难或者诅咒,可见不是好现象。

这个说法,最早是由理查德 · 贝尔曼(Richard E. Bellman)——美国应用数学家,同时也是动态规划算法的创始人——提出来的。

他是在思考动态优化的过程中发现了这件事:当数据维度增加时,由于向量空间体积呈指数级增加,会遇到许多在低维数据中很难出现的问题。比如:

100个平均分布的点能把一个一维的单位区间均分为100份,也就是说100个均匀分布的采样点就可以在一维的单位空间里形成精度为0.01的采样。而要在二维的单位空间里形成同样密度的采样,就需要10000个点;三维需要1000000个点;十维空间则需要 1 0 20 10^{20} 1020个采样点……

那要是1000维呢?所需采样数根本就是天文数字,现实当中,我们怎么可能去找那么多样本数据?

以上是当年理查德 · 贝尔曼举的例子。

数据稀疏

其实这个问题反过来想更直接。

在现实生活中,无论我们是做统计分析还是机器学习,能获得的样本的数量(至少是量级)是相对固定的,毕竟现实数据都有其获取成本。

同样数量的样本,如果我们只选取一维特征,那么这些样本在特征空间中的密度肯定会比在二维、三维或者更高维度空间中大得多。

下图这个例子显示了20个样本,分别在一维、二维和三维空间中的分布:
在这里插入图片描述
而到了真正的高维,将稀疏到什么程度,可以想象。

数据稀疏对于任何要求有统计学意义的方法而言(无论是概率统计、数据挖掘,还是机器学习)都是一个问题。

一般而言,为了获得在统计学上可靠的结果,用来支撑这一结果的数据量随着特征维数的提高而呈指数级增长。

数据稀疏对机器学习的影响

数据稀疏对于机器学习的影响尤其大。

  • 首先,机器学习本身就是建立在统计学习之上的。

  • -其次,在机器学习中有大量模型依据样本之间的相似度来对其进行判断,而往往样本的相似度由其在特征空间的相互距离决定,这就使得样本密度直接影响了样本属性。

  • 此外,维度的增多还直接导致了对于计算能力需求的增大,从而在实践中对机器学习算法造成影响。

机器学习中,有时会出现这样的情况:在训练样本固定的情况下,特征维数增加到某一个临界点后,继续增加反而会导致模型的预测能力减小——这叫做休斯现象(Hughes Phenomenon,以其发现者 G. Hughes 命名)。

降低数据维度

降低维度的可能

虽然很多时候,“维数灾难”会被研究人员当作不处理高维数据的借口,但学术界对这一现象一直在进行研究。

由于本征维度的存在,众多降维方法的有效性得到了证明——也就是说,应用这些降维方法处理过的数据,虽然特征维度下降了,却没有丢失掉主要的属性信息。

注意:本征维度(Intrinsic Dimension)原本是信号处理中的概念。

信号的本征维度描述了需要用来表示信号的变量数量。对于含有 N个变量的信号而言,它的本征维度为M,M满足 0 ≤ M ≤ N 0\le M\le N 0MN;本征维度指出,许多高维数据集可以通过削减维度降至低维空间,而不必丢失重要信息。

降维度方法

机器学习领域里讲的降维是指:采用某种映射方法,将原本高维空间中的数据样本映射到低维空间中。

降维的本质是学习一个映射函数 y = f ( x ) y=f(x) y=f(x),其中 x 表示原始的高维数据,y 表示映射后的低维数据。

之所以降维后的数据能够不丧失主要信息,是因为原本的高维数据中包含了冗余信息和噪音,通过降维,我们减少了冗余,过滤了噪声,从而保留了有效的特征属性,甚至是提高了数据的精度——这当然是我们希望的情况。

降维算法多种多样,比较常用的有:PCA(Principal Component Analysis,主成分分析)、LDA(Linear Discriminant Analysis,线性判别分析)、LLE(Locally linear embedding,局部线性嵌入)、Laplacian Eigenmaps (拉普拉斯特征映射)等。

还有一些机器学习模型和方法,比如随机森林/决策树,聚类等,也可以用作降维的手段。

今天我们只讲其中最常用的一种——PCA,主成分分析。

主成分分析(PCA)的原则

PCA 是一种统计学中用于分析、简化数据集的技术,经常用来减少数据的维度数。

PCA 由英国数学家卡尔 · 皮尔逊(Karl Pearson)——他也是皮尔森卡方检验的发明者——在1901年发明的。在统计学领域,PCA 是最简单的用特征分析进行多元统计分布的方法。

我们对于所有降维方法的预期都是:将原始高维空间的样本数据转变为低维“子空间”(Subspace)中的数据,使得子空间中样本密度得以提高,样本间距离计算变得容易,同时又不丧失主要特征信息,至少是不丧失与学习任务有密切关系的那些特征信息。

向量空间都有对应的超平面,而超平面的维度低于其所在空间。

那么,如果我们能把一个空间中的样本点映射到它的超平面上去,这样一来,映射后的结果不就只存在于超平面空间(也就是原空间的子空间)了吗?这样,我们就获得了降维的结果。

怎么能够保证超平面中的点不丧失对应原始点的“主成分”呢?

首先,至少要尽量使得原空间中的样本点投影到超平面之后不重叠。否则,有一些样本就“消失”了——这显然不符合我们的预期。

其次,既然做了投影,就一定会丢失一部分信息。直接丢失掉的,就是原空间中样本到达超平面的距离。因此,我们还要尽量使得这个超平面靠近原空间样本点——如果样本点到超平面的距离只有很小的一段,那么映射后它丢失的信息量也相应地会很小。

基于这种想法,我们理想的超平面需要具备这样两个性质:

  • 最大可分性:样本点到这个超平面上的投影尽量能够分开;
  • 最近重构性:样本点到这个超平面的距离尽量近。

PCA 的优化目标

既然已经知道我们要做的是将一个向量空间中的样本投影到具备上述两个性质的超平面里面去。那么根据之前的经验,下一步就是把我们要做的事情转化为形式化优化目标。

我们的优化目标很清晰,就是最大可分性和最近重构性。形式化表达就是用数学式子来表达它(们)。

假设我们有 n 个样本数据,这些样本原本属于一个 d 维空间。

我们先对样本数据做一下中心化,使得 ∑ i x ( i ) = 0 \sum_ix^{(i)}=0 ix(i)=0

注意: 数据中心化就是将一个个样本以整体均值为中心移动至原点。比如下图这样:
在这里插入图片描述

原空间里的第i个样本可以表示为:
在这里插入图片描述
我们要将它们投影到一个d’维的空间,有 d ′ &lt; d d&#x27;&lt;d d<d,第i样本投射到低维空间后标识位:
在这里插入图片描述
x ( i ) x^{(i)} x(i) z ( i ) z^{(i)} z

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值