机器学习(2)——PCA(principal components analysis 主成分分析)降维

PCA(主成分分析)是一种统计降维技术,通过寻找数据最大方差的方向来压缩数据,保留最重要的特征。它包括计算协方差矩阵、特征向量和特征值,然后将数据投影到低维空间。在PCA中,通常先对数据进行均值标准化,然后计算协方差矩阵,提取特征向量,最后将数据转换到由特征向量张成的新空间,实现降维。
摘要由CSDN通过智能技术生成

概念

PCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

实施步骤

(1) 第一步计算矩阵 X 的样本的协方差矩阵 S(此为不标准PCA,标准PCA计算相关系数矩阵C)

(2) 第二步计算协方差矩阵S(或C)的特征向量 e1,e2,…,eN和特征值 , t = 1,2,…,N

(3) 第三步投影数据到特征向量张成的空间之中。利用公式,其中BV值是原样本中对应维度的值。

PCA 的目标是寻找 r ( r<n )个新变量,使它们反映事物的主要特征,压缩原有数据矩阵的规模,将特征向量的维数降低,挑选出最少的维数来概括最重要特征。每个新变量是原有变量的线性组合,体现原有变量的综合效果,具有一定的实际含义。这 r 个新变量称为“主成分”,它们可以在很大程度上反映原来 n 个变量的影响,并且这些新变量是互不相关的,也是正交的。通过主成分分析,压缩数据空间,将多元数据的特征在低维空间里直观地表示出来。

计算原理及过程

原理解释

下面用一个具体的例子来解释以下PCA降维:


有一个二维实数集,如上图,我们需要对数据进行降维,从二维降到一维,也就是说,我们现在需要找一条直线,把上图中的数据投影到这一条直线上。但是,这条直线不能随便找,那么,怎样找到一条好的直线来投影这些数据成了我们主要研究的问题。
而PCA(注意,PVC不是线性回归)恰恰就是怎样去找这条最好的直线 ,如下图,对于我们给出的二维数据,我们找这条直线标准是:原有的二维数据所有点到降维后的这条直线上的距离(如下图中绿线所示,学名:投影误差)最短 ,此时,这条直线就是我们降维后要找的最优直线
在这里插入图片描述
另外,在进行PCA时,我们一般先对原有的数据进行均值归一化和特征规范化 ,使得特征 x 1 , x 2 x1,x2 x1,x2的均值都为0,数值都在可以比较的范围内。
用专业的话说,PCA将会给出一个向量 u ⃗ \vec u u ,把所有的数据都投影到这个向量上,让投影误差最小,无论这个是负是正,这个都没有影响。

计算过程

特征均值标准化

在进行之前,我们必须先对数据惊醒一些预处理,对数据进行均值标准化。对于均值标准化,我们首先计算每个特征的均值:
μ j = 1 m ∑ i = 1 n x j i \mu_{j}=\frac{1}{m}\sum_{i=1}^nx_j^i μj=m1i=1nxji
然后我们用:
x j − μ j x_j-\mu^j xjμj
替代原有的数据
x j i x_j^i xji
现在就会使每个特征有个恰当的零均值。例如,有数据:
3 , 2 , 1 , 6 , 3 , 4 , 9 3,2,1,6,3,4,9 3,2,1,6,3,4,9
其平均值为
μ = 4 \mu=4 μ=4
则均值标准化后的数据为
− 1 , − 2 , − 3 , 2 , − 1 , 0 , 5 -1,-2,-3,2,-1,0,5 1232105
此时数据的均值为
μ = 0 \mu=0 μ=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值