主成分分析的目的:
数据的压缩+数据的解释
常被用来寻找判断事物或现象的综合指标,并对综合指标所包 含的信息进行适当的解释
比如,评综测
基本思想
差距越大 方差越大 所包含的信息越多
数学模型
假定有n个地理样本,每个样本共有p个变量,构成一个n×p 阶的地理数据阵
要从原来的所有变量得到新的综合变量,一种较为简单的方 法是作线性变换,使新的综合变量为原变量的线性组合。
即
建模条件
1、为了使方差 可以比较,要求线性组合的系数满足规范化条件
2、要求原始变量之间存在一定的相关性
3、要求各个综合变量间互不相关,即协方差为0
4、为了消除变量量纲不同对方差的影响,通常对数据进行标准 化处理,变量之间的协方差即为相关系数
检验
如果多个变量相互独立或相关性很小,就不能进行主成分分析。
Kaiser-Meyer-Olkin(KMO)检验:检验变量之间的偏相关系数 是否过小。
Bartlett’ s 检验。该检验的原假设是相关矩阵为单位阵(不相 关),如果不能拒绝原假设,则不适合进行主成分分析
模型推导(略)
推导结果
通过推导可知, p个变量的主成分就是以协方差阵
的特征向量为系数的线性组合,它们互不相关,其方差为
的特征根。
解决实际问题时,一般不是取全部p个主成分,而是取 前k个,如何选取?
步骤
- 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响
- 根据标准化后的数据矩阵求出相关系数矩阵
- 求出协方差矩阵的特征根和特征向量
- 确定主成分,并对各主成分所包含的信息给予适当的解释
拓展--降维思想
降维是一种常用的数据预处理技术,其目的是通过降低数据维度,减少特征数量,从而简化计算和数据分析过程。以下是几种常见的降维方法:
1. 主成分分析(PCA):PCA是一种无监督学习方法,通过线性变换将原始数据映射到新的低维空间上。它通过找到数据中的主要方差方向,保留最重要的特征,并且数据在新空间中的方差最大化。
2. 线性判别分析(LDA):LDA是一种有监督学习方法,在降维的同时也考虑了类别之间的区分度。它通过寻找最佳投影,使得同类样本间的距离最小化,不同类样本间的距离最大化。
3. t-SNE:t-SNE是一种非线性降维方法,其目标是在保持数据样本之间的相对关系的同时,将高维数据映射到一个二维或三维空间中。t-SNE通过计算样本之间的相似度,将高维空间中的样本映射到低维空间。
4. 特征选择:特征选择是一种基于特征的重要性评估,选择最相关的特征进行保留。常见的特征选择方法包括卡方检验、信息增益、递归特征消除等。
5. 独立成分分析(ICA):ICA是一种统计方法,旨在将观测到的多个信号分解成多个相互独立的子信号。ICA假设原始数据是由多个独立成分的线性组合构成,通过求解独立成分来实现降维。
这些方法都有其适用的场景和特点,具体选择哪种方法取决于数据的性质和分析目标。