canoco5主成分分析步骤_主成分分析原理

7698e816ba63a7ddb70bebfe2ef92c7e.png点击“蓝字”关注我们吧

主成分分析(principle component analysis,PCA)是经典的降维分析工具之一,在数据挖掘、图像处理、信号分析等众多领域被广泛的研究和应用。PCA最早由现代统计科学的创立者、英国数学家Pearson(1901)针对非随机变量提出,后经Hotelling(1933)推广到随机变量而逐渐完善成熟。PCA的背后有着坚实的数学理论,它将原始变量转换成若干个主成分变量,在损失较少信息的前提下,抓住问题的主要矛盾、简化问题从而提升解决问题的效率。

本期我们主要向大家介绍PCA的基本原理以及在R中实现PCA的方法。

1 引言

早在中学时代,我们就已经接触“数形结合”的思想。在很多实际问题中,我们思考如何处理搜集而来的数据之前,一个朴素的想法便是先通过画图观察数据中是否存在某种规律。比如,下面的图(a)就表示某二变量数据的散点图。

24d3606fd1b33767ac02d35c5ae10734.png

我们之所以将数据对应成图(a)的形式,是因为基于如下的考虑。通常数据中包含很多变量,如健康问题中的血氧浓度、肺活量等,这些变量可以看成是对同一问题(健康)的不同角度的描述。那么,我们自然可以将问题中的各个变量与几何图形中的各个维度(如 )进行一一对应:图形上的点在各个维度的取值等价于原始数据在相应变量上的取值。

这样由原始变量对应的几何维度,我们称之为坐标系。一般情况下,坐标系的各个维度和数据中的原始变量一一对应,每个维度取值得到的交点和数据中的一个观测样本相对应。

如果你明白了上述“数形结合”的思想,那么现在来思考这样一个问题:

坐标系的维度是否非要和原始变量一一对应?

也就是说,我们可不可以用其他的维度对相同的数据进行描述刻画,此时数据分析变得更加简单、规律更容易被发现?事实上, 以图(a)为例,我们确实可以找到一个新的坐标系来描述相同的数据,如下所示

950ae57af2727e1fe34b9e5c386dd873.png

我们按照原始变量建立坐标系之后,可以将坐标系的零点 移动到图(b)中的 处,并以 为新的维度来描述数据。在新的坐标系下,数据主要在 方向分布,而 方向则变动不大。换句话说,我们完全可以只用 来描述数据。这样&#

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值