简介
PCA是一种针对连续变量的降维算法,它的根本目的就是选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交(无相关性)。
一句话解释版本:
PCA是一种降维方法,它能把很多个自变量转换成少许相互不相关的新自变量,从而在保证数据变化被抓取的前提下减少自变量个数并消除自变量间相关性。
数据分析与挖掘体系位置
主成分分析不是一种预测模型,它是数据降维的方法。此外,PCA并没有一个预测主体,因此属于无监督学习。
在无监督学习中,常见的方法有如下三种:
- 降维分析
- 聚类分析
- 关联分析
本篇主要介绍降维分析中的主成分分析方法,即PCA。
此方法在整个数据分析与挖掘体系中的位置如下图所示。
主成分分析的定义
主成分分析简称PCA,英文全称Principal Component Analysis。它是无监督学习中降维模型中的一类,在实际的数据探索与建模中应用十分广泛。上面的说法较为晦涩,如果把上面的话说的平民化一些,就是:PCA能够从旧的相互可能相关的自变量中衍生出新的互不相关的自变量,从而减少自变量的个数,同时又能保证数据的变化被大幅度的解释。
主成分分析的理解与计算
主成分分析的具体方法是对变量的协方差矩阵(Co-variance Matrix)或相关系数矩阵(Correlation Matrix)求取特征值和特征向量。经证明,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。因此,进行主成分分析时,选取最大的几个特征值对应的特征向量,并将数据映射在这几个特征向量组成的参考系中,达到降维的目的(选择的特征向量数量低于原始数据的维数)。上图显示的是人口量(Population)与广告投入金额(Ad Spending)的散点图。图中绿色的线就代表着PCA中的第一个主成分。从图上能明显的看出来,绿色直线所在的区域是粉色点变化性(Variability)是最高的区域(数据最容易在绿线上变动),也就是说,绿色的直线是离图上所有粉色点(Observation