第十四章
14-1 目标1 数据压缩
降维的第一个应用是可以压缩数据,使运算更快
14-2 目标2 可视化
降维的第二个应用是可视化
14-3 主成分分析问题规划1
PCA
PCA不是线性回归,求的直线或平面是在距离最短
14-4 主成分分析问题规划2
实现PCA过程
计算均方差矩阵,然后计算其特征向量
然后选择前K列(K是指主要成分)
整体过程见上图
14-5重建
Z=UTx
Xappro=U*Z
但是损失了垂直距离,仅仅有坐标的变化,仍然在一条线上,并没有完全的恢复
14-6 主要成分K的选择
平均平方投射误差
总方差,上式表明99% 的方差被保留了
简单计算方法就是1-矩阵的迹的比值
14-7 应用PCA的建议
- 压缩数据 减少对硬盘和内存的占用量
- 可视化
但是感觉压缩数据没有多大必要
不建议使用PCA来防止过拟合,即使是在方差保留在0.99或者0.95的范围内的,过拟合通常使用正则化来解决
实施时的建议
- 实施的时候先在原来的数据上使用算法,遇到硬盘或者内存不太够时,或者需要数据可视化时,才考虑使用,其他时候并没有必要。
- PCA是一个比较优秀的无监督学习方法