降维
防止过拟合的其中一种方法就是降维,解决的问题就是维度灾难。
从几何角度理解维度灾难(数据稀疏化)
PCA
一个中心:原始特征空间的重构,将特征从相关变成无关。
两个基本点:最大化投影误差和最小重构距离。(两者结果相同,解分别是前n个(主成分)和后n个特征向量)。
1.找到主成分
2.中心化再投影得到新坐标
PCA求解
数据: ; SVD分解,H:中心矩阵;;
方差矩阵:;
数据矩阵:;
使用S求解:得到方向(主成分),然后HXV得到坐标(PCA主成分分析)
使用T求解:直接可以得到坐标(主坐标分析PCoA)
在特征维度很大时可以使用T求解。
P-PCA
z:隐变量,符合高斯分布
x:原数据,x= wz+μ+ε
p-pca:求解,学习参数:w,μ,(EM求解)
x,z之间的关系如下图:
视频地址:https://www.bilibili.com/video/av32709936/