唐宇迪《python数据分析与机器学习实战》学习笔记
22降维算法-PCA主成分分析
一、算法讲解
比如(3,2)是建立在我的基上,一旦改变就不能这么表达那个点了。
线性无关,X轴Y轴的数据不相互影响。
做事要有依据,既然映射到基,那就要 找最合适的基
一堆密集的点希望投影后得到一堆比较分散的点,因此方差越大越好,方差代表一个特征的分散程度,协方差代表两个变量之间的关系,如果A、B的变化趋势类似则协方差越大,协方差的值在-1到1之间。
协方差计算:第一列减去第一列均值,第二列减去第二列均值,本来应该是(ai-μa)(bi-μb)这里假设均值为0所以直接aibi
之所以要引入协方差是因为:比如10维-2维选方差最大的当轴,第一个轴方差最大,第二个轴次大,两个轴肯定接近重合,即使多个轴也会大部分接近重合,不利于建模。
优化目标
使方差尽可能大、使协方差为0。对角线上是各自的方差(默认μ为0),非对角线上就是两个字段的协方差