canoco5主成分分析步骤_主成分分析(principal component analysis)

01d28876e283d0f569f6bf46d5b92a51.png

一、主成分分析的思想

主成分分析是数据处理中常用的降维方法。我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量

产生,并假设
。通过该分布得到的样本点如图下所示:

abf9fe36458de0e150a361729331bfed.png

如果我们把每个数据点用

表示,那么,每个数据是二维的。实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为
,由于每个数据点的第二维坐标都是
,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:

cd9f1a0024fe3301a688d30d41b0e38d.png

在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。但是注意到

仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在
上的投影近似代表原数据,几乎可以完全反映出原数据的分布。直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到
是最好的选择。因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。从这种观点看,投影到
确实是最好的选择,因为投影到这根轴,可使得投影点最分散。我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。进一步考虑如下数据分布:

76381c49068dc9c302642b4be5583a2a.png

根据上述,如果要将数据压缩为一维的,那么应该选择

轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与
垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的
轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。但是对于三维情况,第一根轴确定后,第二根轴在与第一根轴垂直的平面内选取,这样的选取方式有无穷多种,通过投影最大来确定第二根轴在该平面内的选取方式。高维空间同理),这样,每个数据点由原来的用在
轴下的坐标表示变成了用在
下的坐标表示。
的方向依次称为第一主成分方向,第二主成分方向。数据在
上的投影依次称为该数据的第一主成分,第二主成分。容易看出,
维数据有
个主成分。

二、随机向量的主成分

1、随机向量的主成分的定义与计算

由上述例子受到启发,我们先对随机向量的主成分进行定义。假设随机向量为

,轴
的单位方向向量
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值