主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习方法
利用正交变换把由线性相关变量表示的观测数据 转换为 少数几个由线性无关变量表示的数据,线性无关的变量 称为 主成分
主成分的个数通常小于原始变量的个数,所以PCA属于降维方法
主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他机器学习方法的前处理
PCA属于多元统计分析的经典方法
1. 总体主成分分析
第一轴选取方差最大的轴 y1
主成分分析 的主要目的是降维,所以一般选择 k( k≪mk\ll
mk≪m)个主成分(线性无关变量)来代替m个原有变量(线性相关变量),使问题得以简化,并能保留原有变量的大部分信息(原有变量的方差)。
在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果。
为了消除这个影响,常常对各个随机变量实施规范化,使其均值为0,方差为1。
主成分分析的结果可以用于其他机器学习方法的输入。
将样本点投影到以主成分为坐标轴的空间中,然后应用聚类算法,就可以对样本点进行聚类
定义:
假设 x\pmb xxxx 为 mmm 维随机变量,均值为 μ\muμ,协方差矩阵为 Σ\SigmaΣ
随机变量 x\pmb xxxx 到 mmm 维随机变量 y\pmb yyyy 的线性变换
yi=αiTx=∑k=1mαkixk,i=1,2,...,my_i = \alpha_i^T \pmb x = \sum\limits_{k=1}^m
\alpha_{ki}x_k, \quad i=1,2,...,myi=αiTxxx=k=1∑mαkixk,i=1,2,...,m
其中 αiT=(α1i,α2i,...,αmi)\alpha_i^T =
(\alpha_{1i},\alpha_{2i},...,\alpha_{mi})αiT=(α1i,α2i,...,αmi)
如果该线性变换满足以下条件,称之为总体主成分:
αiTαi=1,i=1,2,...,m\alpha_i^T\alpha_i = 1, i = 1,
2,...,mαiTαi=1,i=1,2,...,m
cov(yi,yj)=0(i≠j)cov (y_i,y_j) = 0(i \neq