数据分析学习总结笔记03:数据降维经典方法
1. 数据降维概述
用少数几个新的变量代替原有变量,合并重复信息,但不损失重要信息。
2. 数据降维的应用
- 构建综合指标:主成分分析主要用于构建综合指标来区分目标群体,例如构建顾客各种消费行为的综合指标来进行客户分级。
- 数据可视化:当原始变量维度很高时,可以采用第一、第二主成分散点图来直观表述数据特征,例如数据聚类信息等。
- 变量压缩、重构:由“重要的”主成分重构原始变量,可以去除原始数据中冗余的噪音,突出数据的特征,例如人脸识别。
3. 数据降维经典方法
3.1 主成分分析(PCA)
3.1.1 PCA概述
主成分分析(Principal Component Analysis, PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。
PCA可以把具有相关性的高维变量合成为线性无关的低维变量,成为主成分。主成分能够尽可能保留原始数据的信息。举例,基于学生的各科成绩,建立一个(或几个)度量学生考试表现的综合指标,以明显地评价学生的学习情况。
PCA将涉及到以下几个统计学概念:
- 方差:是各个样本和样本均值的差的平方和的均值,用来度量一组数据的离散程度。
- 协方差:用于度量两个变量之间的线性相关性程度,若两个变量的协方差为0,则可认为二者线性无关。协方差矩阵则是由变量的协方差值构成的矩阵(对称阵)。
- 特征向量:矩阵的特征向量是描述数据集结构的非零向量,并满足以下公式:
其中,A为方阵,v是特征向量,λ是特征值。
3.1.2 PCA原理
矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。即,主成分按照“方差贡献度”依次导出。
其算法过程如下所示:
3.1.3 PCA & LDA
-
<