阅读之前看这里👉:博主是正在学习数据分析的一员,博客记录的是在学习过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
目录
1.PCA定义
PCA是比较常见的线性降维方法,通过线性投影将高维数据映射到低维数据中,所期望的是在投影的维度上,新特征自身的方差尽量大,方差越大特征越有效,尽量使产生的新特征间的相关性越小。
PCA算法的具体操作为对所有的样本进行中心化操作,计算样本的协方差矩阵,然后对协方差矩阵做特征值分解,取最大的n个特征值对应的特征向量构造投影矩阵。
2.PCA具体计算步骤
3.降维之后的维度怎么确定
- 可以利用交叉验证,再选择一个很简单的分类器,来选择比较好的 k‘ 的值
- 可以设置一个比重阈值 t,比如 95%,然后选择满足阈值的最小的 k‘:
∑ i = 1 d ’ λ i ∑ i = 1 d λ i ≥ t