主成分分析法(pca)

主成分分析的目的:

数据的压缩+数据的解释

常被用来寻找判断事物或现象的综合指标,并对综合指标所包 含的信息进行适当的解释

比如,评综测

基本思想

差距越大 方差越大 所包含的信息越多

数学模型

假定有n个地理样本,每个样本共有p个变量,构成一个n×p 阶的地理数据阵

要从原来的所有变量得到新的综合变量,一种较为简单的方 法是作线性变换,使新的综合变量为原变量的线性组合。

建模条件

1、为了使方差 可以比较,要求线性组合的系数满足规范化条件

2、要求原始变量之间存在一定的相关性

3、要求各个综合变量间互不相关,即协方差为0

4、为了消除变量量纲不同对方差的影响,通常对数据进行标准 化处理,变量之间的协方差即为相关系数

 检验

如果多个变量相互独立或相关性很小,就不能进行主成分分析。

Kaiser-Meyer-Olkin(KMO)检验:检验变量之间的偏相关系数 是否过小。

Bartlett’ s 检验。该检验的原假设是相关矩阵为单位阵(不相 关),如果不能拒绝原假设,则不适合进行主成分分析 

模型推导(略)

 推导结果

通过推导可知, p个变量的主成分就是以协方差阵\sum的特征向量为系数的线性组合,它们互不相关,其方差为 \sum的特征根。  

 解决实际问题时,一般不是取全部p个主成分,而是取 前k个,如何选取?

 

步骤

  • 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
  • 根据标准化后的数据矩阵求出相关系数矩阵
  • 求出协方差矩阵的特征根和特征向量
  • 确定主成分,并对各主成分所包含的信息给予适当的解释

 拓展--降维思想

降维是一种常用的数据预处理技术,其目的是通过降低数据维度,减少特征数量,从而简化计算和数据分析过程。以下是几种常见的降维方法:

1. 主成分分析(PCA):PCA是一种无监督学习方法,通过线性变换将原始数据映射到新的低维空间上。它通过找到数据中的主要方差方向,保留最重要的特征,并且数据在新空间中的方差最大化。

2. 线性判别分析(LDA):LDA是一种有监督学习方法,在降维的同时也考虑了类别之间的区分度。它通过寻找最佳投影,使得同类样本间的距离最小化,不同类样本间的距离最大化。

3. t-SNE:t-SNE是一种非线性降维方法,其目标是在保持数据样本之间的相对关系的同时,将高维数据映射到一个二维或三维空间中。t-SNE通过计算样本之间的相似度,将高维空间中的样本映射到低维空间。

4. 特征选择:特征选择是一种基于特征的重要性评估,选择最相关的特征进行保留。常见的特征选择方法包括卡方检验、信息增益、递归特征消除等。

5. 独立成分分析(ICA):ICA是一种统计方法,旨在将观测到的多个信号分解成多个相互独立的子信号。ICA假设原始数据是由多个独立成分的线性组合构成,通过求解独立成分来实现降维。

这些方法都有其适用的场景和特点,具体选择哪种方法取决于数据的性质和分析目标。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值