主成分分析实战篇:南极考察站检测数据降维

1.主成分分析应用背景及目标:
1.1 背景分析

  • 我们希望可以从南极洲站点监测数据中得到南极洲地表温度的计算公式,进而解释分析气候变暖的内在原因。为了能够得带南极洲地表温度更多方面,更完整的信息,需要用多变量(year ,station altitude,station pressure ,wind speed, wind direction)组成的向量来表示,这些用来描述观察南极洲地表温度的变量,抽离出来就是高维数据。高维数据一方面提供了有关地表温度极其丰富、详细的信息,但另一方面,由于高维数据自身表达和处理复杂,可能会给随后的数据处理工作带来了前所未有的困难 。
  • 所以需要通过主成分分析对数据降维,year ,station altitude,station pressure ,wind speed, wind directions是南极洲洲科学考察站记录的数据,信息丰富,这些数据可能与南极洲地表温度有关,但是我们却不知道如何分析这些数据与地表温度之间的关系。应用主成分分析降低复杂度,一方面可以解决“维数灾难”;另一方面可以更好地认识和理解数据。

1.2 目标

  • 高维数据降维,用几个主成分替了原始的五个特征:year ,station altitude,station pressure ,wind speed, wind direction, 同时,这几个主成分可以表示原始五个特征的80% 以上的信息。 通过计算综合主成分影响程度累积百分比,对影响南极洲地表温度的五个特征进行定量分析,进而合理选择预测计算南极洲地表温度的主成分(特征),建立南极洲温度计算预测模型。

2. 数据样本转换为矩阵
2.1 原始数据样本预处理

  • 数据有五个与南极洲地表温度相关联的特征,分别为Year , Station_level_pressure , Wind_speed , Wind_direction ,Height
  • 部分数据样本如下:
    原始数据样本

2.2 数据样本转换为矩阵
数据转换为如下形式的矩阵:
矩阵
即如下形式:其中 n = 24 , p = 6
数据矩阵

3. 对原始数据进行标准化处理
由于Year , Station_level_pressure , Wind_speed , Wind_direction ,Height具有不同的单位和不同的变异程度。  不同的单位常使系数的实践解释发生困难。例如:Station_level_pressure的单位是 hecto-Pascals,Wind_speed 的单位是knots,那么在计算中可能会出现不同变量配予系数相加的情况。1004.39hecto-Pascals 的差异怎么可以与15.2knots的差异相加? 由于不同变量自身具有相差较大的变异,会使在计算出的关系系数中,不同变量所占的比重大不相同。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。
xj
xij
var(xj)

4. 计算样本相关系数矩阵
R
为方便,假定原始数据样本标准化后仍用X表示,则经标准化处理后的数据的相关系数为:
rij
5. 用雅克比方法求相关系数矩阵R的特征值

图片1

6. 选择重要的主成分,并写出主成分表达式
6.1 计算贡献率 (主成分得分)
通过主成分分析得到了五个主成分,但是,由于各个主成分所占方差百分比逐渐递减,包含的信息量也子在逐渐递减,所以并不是选取所有五个主成分,根据各个主成分的累计贡献率的大小选取前 k 个主成分,这里贡献率就是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重。即:
贡献率

6.2 计算结果整理分析
主成分得分表如下:
PV : The percentage of variance
total variance
贡献率越大,说明该主成分包含的原始变量的信息越强。主成分个数 k 的选取,主要根据主成分的累积贡献率来决定,即一般要求累积贡献率达到 85% 以上,这样才能保证综合变量能包括原始变量的绝大多数信息。在我们计算出来的主成分得分表中,前三个主成分影响力累计达到81.555%,所以我们选取PCA构造出来的前三个主成分为模型的三个特征 。通过PCA 构造出来的三个主成分(也就是我们模型的三个新特征)是原来变量Year , Station_level_pressure , Wind_speed , Wind_direction ,Height 的线性组合,通过对主成分表达式的系数的定性分析可知,这个线性组合中各个变量的系数有大有小,有正有负,有的大小相当,因而不能简单的认为这个主成分是某个原变量的属性的作用,线性组合中各变量系数的绝对值大者表明该主成分综合了绝对值大的变量,有几个变量大小系数相当时,则认为这一主成分是这几个变量的总和 。
6.3 根据主成分得分表得出主成分表达式
主成分得分表如下:
主成分得分表
三个主成分的计算公式如下:
主成分计算公式

7.应用主成分计算公式处理数据
根据标准化的原始数据,把各个样本,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即主成分得分。具体形式可如下:
捕2
部分数据如下
PC One: Principal Component One
PC Two: Principal Component Two
PC Three: Principal Component three
图片2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值