降维,顾名思义,就是降低样本的特征维度,这是因为“维度灾难”的问题,具体看连接:维度灾难
1,
定义样本空间:
则样本均值:, 为1*p为的矩阵。
样本方差方差:
S为p*p维的矩阵,对角线的数值是对应维度的方差
其中,,,是N*N的单位矩阵。而H是中心矩阵,H的n次幂等于它本身
2,PCA的核心思想可以概括为两句:一个中心,两个基本点。
一个中心:对原始特征空间的重构。(相关->无关)
两个基本点:最大投影方差,最小重构距离。(这两个条件结果相同)
a,对特征空间重构的意思是让原来的p个特征转换成新的p个无关的特征。
如上图,就是把特征x1,x2转换成无关的u1,u2。
b,最大投影方差就是让样本在新的特征上的投影的坐标的方差最大,如上图就是让4个样本在u1、u2的方差最大,如若u2的方差很小则可以舍去这个维度。
以u1为例,令新的特征u1为单位向量,则u1的模长为1,即.
样本在u1上的投影为,那么对应的向量形式为:
c,最小重构代价,选取p个维度中的q个维度,计算两者的代价,然后最小化。
3.从SVD的角度看PCA
4. PCoA(主坐标分析:principal co-ordinates analysis)
如若想降维,可以对HX做SVD,也可以对S或者T做特征分解。
PCA与PCoA的不同是,S是p*p维的,T是N*N维的,如若p>>N时,使用PCoA,反之使用PCA。
5. P-PCA
下面从概率的角度对 PCA 进行分析,概率方法也叫 p-PCA。我们使用线性模型,类似之前 LDA,我们选定一个方向,对原数据,降维后的数据为。降维通过一个矩阵变换(投影)进行:
对于这个模型,我么可以使用期望-最大(EM)的算法学习参数W、、,在进行推断的时候需要求得p(z|x),推断的求解过程和线性高斯模型类似。
总结:
降维是解决维度灾难和过拟合的重要方法,除了直接的特征选择外,我们还可以采用算法的途径对特征进行筛选,线性的降维方法以 PCA 为代表,在 PCA 中,我们只要直接对数据矩阵进行中心化然后求奇异值分解或者对数据的协方差矩阵进行分解就可以得到其主要维度。非线性学习的方法如流形学习将投影面从平面改为超曲面。