文章目录
维度灾难
-
从数据的角度上来看
当你的模型增加一个特征(属性)后,你所需要的数据是以指数幂的形式增加
-
从几何的角度上来看
模型维度的增加,会导致数据的稀疏性
过拟合的三种解决方案:
- 增加数据
- 正则化
- 降维
PCA(主成分分析)
数学 预备知识
由以下推导可以得出:
对于一个数据集,有N个样本,每个样本p维
则,可求出这N分样本的 样本均值(Sample Mean)的矩阵表示
和 样本协方差(Sample covariance) 的矩阵表示
PCA(主成分分析)的核心思想
上面的数学推导的结论为:
则 PCA的核心思想可以总结为
标准术语就是:
PCA的目标:
将相关的特征重构成无关的特征
实现这个目标的思路:
有两个,分别为:
1. 最大投影方差
2. 最小重构距离
事实上,这两种思路其实是一个意思。
最大投影方差
最小重构距离
PCA(主成分分析)------最大投影方差角度
PCA(主成分分析)------ 最小重构距离角度
上面的内容简单的总结一下
现在,我们来考虑一下 最小重构距离 的角度
综上所述,最小重构距离就是
最大投影方差和最小重构距离二者的比较
PCA(主成分分析)------SVD角度
等彻底明白SVD奇异值分解再回头看
PCA(主成分分析)------概率角度
等讲到变分推断再回来看