PCA
PCA是一种数学方法,那他的好处都有啥???:
- 降维
- 降噪
- 可视化
PCA的操作概括起来就是降维的同时让样本间间距最大——即使降维的影响最小化,用方差能很好解决这个问题。(我好像没有介绍就直接开始讲做法了是不是有点不妥)
前戏
在求方差之前将所有样本的特征值demean处理,那么方差就更加好求了(方便向量化)
PCA过程
主成分就是集合所有样本特征所求得的影响力最大的一个向量。
那么实际上就是要求能使方差最大的一个向量w:
其中w是一个指向降维的方向的单位向量(这条式子你能推的出来的),现在的目的就是要求这个对应的w能使它最大了,(w就是Xi的第一主成分的方向),这时可以用梯度上升法来求w,跟之前求θ很相似,只是原来是-α×梯度,现在是+α×梯度,当上升到。(再复习一下梯度,也是对每一个wi进行求导的一个向量)
然后这个值也可以这样进行向量化: