数据降维是指将高维度的数据映射到低维度的空间中,同时保留数据中的重要信息。这种降维的操作可以帮助我们更好地理解和处理数据,并且可以降低计算的复杂度,提高机器学习算法的效率和准确率。
主成分分析(Principal Component Analysis,PCA),是一种降维技术,其目标是从给定的特征中生成新的特征,而不仅仅是挑选已有的特征。这些新的特征,称为主成分,是原始特征的线性组合。在PCA中,主成分是按照它们所捕获的方差的降序排列的。选择前几个主成分就可以实现降维,因为这些主成分包含了原始数据中大部分的方差信息。通过舍弃方差较小的主成分,可以实现数据的降维,同时尽可能保留原始数据的信息。
PCA是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系,使得投影后的数据方差最大。PCA算法所要达到的目标是,降维后的数据所损失的信息量应该尽可能的少。
PCA降维准则:
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。整体和原样本的分布并没有多大的差距,点和点之间的距离更大了,区分度也更加明显。
最近重构性:样本集中所有点,重构后的点距离原来的点的误差之和最小。
最大可分性:样本在低维空间的投影尽可能分开。
PCA算法实现
(1)数据中心化:对X中的每一行(即一个特征属性)进行零均值化,即减去这一行的均值。
(2)求出数据中心化后矩阵X的协方差矩阵(即特征与特征之间的协方差构成的矩阵)。
(3)求解协方差矩阵的特征值和特征向量。
(4)将特征向量按照特征值从大到小按列进行排列称为矩阵,获取最前面的k列数据形成矩阵W。
(5)利用矩阵W和样本集X进行矩阵的乘法得到降低到k维的最终数据矩阵。