1 问题引入
前边几章我们学习了很多机器学习的算法,它们在小规模数据上都很有效,但在实际生活中,我们的数据集可能是巨大的,在大规模、多维度数据上运行算法效果往往没有那么好,原因之一是数据的维度太大,有些特征可能对我们的算法决策没有太大影响,或是一些噪声产生干扰。本章我们会提前对数据进行降维处理,只保留数据集中最重要的特征,对数据进行简化,即数据的预处理阶段。
2 PCA
2.1 工作原理
PCA-主成分分析法,是目前应用最广泛的降维技术,通过对原坐标系进行转换,减少原来的坐标轴数量,达到降维的目的。选择的准则是,第一个坐标轴(或方向)选择原始数据中方差最大的方向,第二个坐标轴在和第一个坐标轴正交的前提下,选择方差次大的方向,该过程一直重复,我们会发现大部分的方差(信息)都包含在前几个坐标轴中,所以我们可以忽略余下的坐标轴,即完成了数据的降维。
2.2 数学原理
X是原数据,Y是降维后的数据,P是基向量(特征向量),C是原协方差矩阵,D是对角矩阵(新协方差矩阵)。