特征提取(机器学习数据预处理)
特征提取与特征选择都是数据降维的技术,不过二者有着本质上的区别;特征选择能够保持数据的原始特征,最终得到的降维数据其实是原数据集的一个子集;而特征提取会通过数据转换或数据映射得到一个新的特征空间,尽管新的特征空间是在原特征基础上得来的,但是凭借人眼观察可能看不出新数据集与原始数据集之间的关联。
这里介绍2种常见的特征提取技术:
1)主成分分析(PCA)
2)线性判别分析(LDA)
1.主成分分析(PCA)
一种无监督的数据压缩,数据提取技术,通常用于提高计算效率,帮助降低”维度灾难“,尤其是当模型不适于正则化时。
PCA是一种线性转换技术,其目标是在高纬度数据中找到最大方差的方向,并将数据映射到不大于原始数据的新的子空间上。(所谓数据方差最大的方向即数据沿着该方向的分布最分散)
PCA算法的流程:
1)对原始d维数据集做标准化处理;
2)构造样本的协方差矩阵;
3)计算协方差矩阵的特征值和相应的特征向量;
4)选择前k个最大特征值对应的特征向量,其中$k\leq d$;
5)通过前k个特征向量构建映射矩阵W;
6)通过映射矩阵W将d维的原始数据转换为k维的特征子空间。
标准化处理之前的内容有,这里不再赘述;
1.1构造协方差矩阵
公式:
$\sigma_{jk}=\frac{1}{n}\sum_{i=1}^{n}(x_{j}^{(i)}-u_{j})(x_{k}^{(i)}-u_{k})$
n代表数据的总个数&#