预备知识
协方差
拉格朗日乘子法
概念
PCA和AdaBoost
特征选择概念
问题N个维度有冗余
在某些分类作用是不明显的,甚至不相关的。
如果从N个维度中选取m个维度,m<n使识别率最高。
这就是特征选择的问题-feature selection
特征提取
把n个维度的向量构造一到m维,实现降维度
同时m维保留特征信息
PCA
一种特征提取的基本方法
构造A和B把m维度降到n维
自编码器对标的就是PCA,PCA训练比自编码器简单。
PCA
假设把二维变为1维,向量有一个分部,大致是一个斜的分布,PCA找一个要使方差最大的方向,再以这个方向建立坐标系,把这些点都投影到坐标系上去。稀土投影到斜线上去了。
a
i
a_i
ai代表投影方向
寻找一个a1使它yi1的方差最大
=0这里y的平均
这里可以推倒出
这里如果第2维度与第一位无限接近,则方差还是会很大,这需要避免,所以加入条件。
40min