机器学习之初识PCA

一 定义及用途

定义:即主成分分析方法,无监督学习方法,是一种使用最广泛的数据降维算法。

用途:用于特征降维,通过分析主成分先显出最大的个别差异,发现更便于人类理解的特征;也可以用来削减回归分析和聚类分析中变量的树木

 

二 出现原因

在很多场景中对多变量数据进行观测,在一定程度增加数据采集工作量。更重要的是:多变量之间可能存在相关性,从而增加问题分析的复杂性

如果对每个指标(特征)单独分析,分析结果往往是鼓励,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。

因此,需要在减少分析指标(特征)的同时,尽量减少原有指标(特征)包含信息量的损失,简言之,就是尽可能使用最少的指标(特征)来表达最多的信息量,以达到对权全量数据进行全面分析目的。由于各变量存在一定相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相干,及达到用最少综合指标分别代表存在于各个变量中的各类信息。

主成分分析就属于该类降维算法,通过将关系紧密的特征合成尽可能少的新变量,进行特征降维。

 

三 主成分分析的思想

PCA 主要思想是 将n维特征映射到k维上,这k是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征,如假设有两个特征画出散点图

 

 

如果只保留特征1或特征2,就需要考虑保留那个特征比较好,亦即能过保留最多的信息量

 

选择特征有个标准:保留特征信息量的体现,是拥有更高的可区分度,同时也保留着不放映射之前的空间信息

此时发现,如果所有点都映射到y(特征2)轴上,点与点之间的距离更近了,并不符合原有空间分布,因此保留特征1回更合适,点与点之间的间距更大,区分度也更加明显。

 

 

也就是说,我们要考虑的问题是:如何找到样本间剧最大的轴。其中,一般使用方差(Variance)来定义样本之间的间距:

Var(x) = 1/m*[(x1-avg(x))^2+…+(xn-avg(x))^2) 

 

 

四.主成分分析法的步骤

对于如何找到样本检局最大的轴,使得样本空间的所有点映射到这个轴的方差最大(方差越大,意味特征值波动越大,侧面反映样本间的间距更大)

 

第一步:样本归0,将样本均值归0(demean),即所有样本检区样本的均值。样本的分布没有改变,只是将坐标轴进行移动。体现在方差公式中,计算过程就少一项,计算效率更快 

Var(x) = 1/m[(x1-avg(x))^2+…+(xn-avg(x)^2)]

 

第二步:找到样本点映射后放出最大的单位向量w

求一个轴的方向 w= (w1,w2)需要定义一个轴的方向 w = (w1,w2),使得我们的样本,映射到w以后,使得X映射到w之后的方差最大:

 

括号中的部分是一个项链,更加准确的描述应该是(向量的模),即每个分量对应的长度,最后合成该单位向量w的模

 

因为前面已经均值归0,所以这里只需下面式子最大,即寻找能够取得最大方差的各个特征

 

 

映射过程如下:红色的线是我们要找的方向 w = (w1,w2);第i 航的样本点X(i) = ( X1(i), X2(i) ),X(i) 此时也是一个向量;映射到w上做一个垂线,交点的位置就是X(i) project = ( X(i) pr1, X(i) pr2)对应的点;真正要求的X(i) project 的模的平方,蓝色线段对应的平方

把一个向量映射到另一个向量上,对应的映射长度是多少,时间上这种映射就是点乘:

因为w向量是要找的轴,是一个方向,因此使用方向向量就可以。长度为

因此,在三角形中有: 

主成分的目标是:求w ,是的Var( X project)  = 1/m [(X1)*w+…+(Xn)*w]

如果是n维数据,则有 m个样本,每个样本都有n维特征,求出均值归0 后的单位向量w,使得取到方差最大值

 

五.总结

主成分分析法(PCA),数据降维算法,将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相干的,即用酵素的综合指标(衍生特征集)分别代表存在于各个变量中的各类信息,达到数据降维的效果

 

所用的方法就是“映射”,将n维特征映射到k维上,这k维是全新的正交特征,也被称为主成分,是在原有n维特征基础上衍生构造出的k维特征。我们的目的是找到映射后的样本间距的最大轴

 

其过程分两步: 1.样本归0 。 2.找到样本点映射后方差最大的单位向量w

最后转换为求目标函数的最优化问题:求w,使得Var(X project) = 1/m [X(1)*w + … + X(m)*w] ^ 2 最大

此时我们可以用搜索策略,实用梯度上升法来解决

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值