一、主成分分析PCA(Principal Component Analysis)
- PCA是一种无监督特征降维方法(也可以认为是特征提取方法,从高维提取出低位),在降维的同时保留尽可能多的信息。
- PCA的目标是让样本之间的方差(衡量样本分散的程度)尽可能大(分散能够防止几个点投影至同一个点的情况)。
- PCA的执行步骤:
给定n个d维样本xi,想要将维度降到k。
1.将原始数据按行组合成n*d矩阵。
2.将所有样本特征中心化,转化为均值为0。
3.计算样本的协方差矩阵Cov=XXT。
4.求出协方差矩阵的特征值及对应的特征向量。
5.将特征值从大到小进行排序,然后选取前边的k个特征值对应的特征向量,作为线性变换矩阵P(维度k*d)。
6.Y=XP即降维到k维。 - 倘若d维特征在k维线性不可分,直观上先升维至线性可分再降维,实际上使用核函数来模拟这一过程。
二、线性判别模型_隐式狄利克雷分布LDA(Latent Dirichlet Allocation)
LDA是一种有监督降维方法,它的目标是同一组内方差尽可能小,组间方差尽可能地大。