PCA(主成分分析法)的来龙去脉

PCA是一种数据降维方法,通过线性组合变量形成新变量(主成分),减少变量数量同时保留大部分信息。标准化处理确保各变量公平贡献,计算协方差矩阵揭示变量间关系,然后选取高方差的主成分进行分析。在SPSS等软件中可直接应用PCA进行数据处理。
摘要由CSDN通过智能技术生成

一些要点

  • 用于高维数据降维,用低维尽可能地表示更多的信息
  • 通过线性组合已有变量,形成新的综合变量(注意:主成分分析并不是对初始变量进行简单的排序,而是组合将大量初始变量化为少量综合变量)

 

 

操作步骤

  1. 对连续变化的初始变量进行标准化
  2. 计算协方差矩阵,观察关联关系
  3. 计算协方差的特征值与特征向量,分析主要成分
  4. 创造一个特征向量,选择需要保留的主成分
  5. 根据主成分进一步处理和分析数据

以上为数学上的操作步骤,但在软件SPSS中可以直接集成实现

对PCA的理解

PCA是常用的一种数据降维手段,将数据集中的多数变量转变为保留数据集尽可能多的信息的少数变量。减少变量个数,总是以丢失准确性的代价来换去简便性。更少的变量数,更容易做可视化与相关分析,应用一些机器学习算法时的效率也会更高。

按步骤分析

标准化

本步骤是对现有连续初始数据进行标准化处理,使得每个变量对分析的贡献是一致的。这个步骤十分重要的原因是,PCA分析对每个变量的方差是十分敏感的。这可能会导致方差比较大的变量会完全支配方差比较小的变量,从而得出奇怪的结论。但对变量进行标准化后,将变量均化在具有比较意义的区间,可以避免这个问题。

 

协方差矩阵的计算

这一步是为了理解初始数据的平均值之间有什么相互关系。当变量间的关联关系较强时,所带了的冗余信息也就越多。

协方差矩阵是一个p*p的矩阵(p为数据的维度数),主对角线为对应变量的方差值,且矩阵关于主对角线对称。

协方差矩阵中数字正负的含义,表示随一个变量的增加,另一个变量是增加(+)还是减少(-)。

通过计算协方差矩阵的特征值来得到主成分

需要注意的是,主成分是由初始变量线性组合形成的,因此较难解释其实际含义。

主成分的排名是由方差大小决定的,方差越大,在主成分的排名中越靠前。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值