特征降维分析-PCA主成分分析,贡献度计算

数据降维是指将高维度的数据映射到低维度的空间中,同时保留数据中的重要信息。这种降维的操作可以帮助我们更好地理解和处理数据,并且可以降低计算的复杂度,提高机器学习算法的效率和准确率。

主成分分析(Principal Component Analysis,PCA),是一种降维技术,其目标是从给定的特征中生成新的特征,而不仅仅是挑选已有的特征。这些新的特征,称为主成分,是原始特征的线性组合。在PCA中,主成分是按照它们所捕获的方差的降序排列的。选择前几个主成分就可以实现降维,因为这些主成分包含了原始数据中大部分的方差信息。通过舍弃方差较小的主成分,可以实现数据的降维,同时尽可能保留原始数据的信息。

PCA是一个非监督的机器学习算法,是一种用于探索高维数据结构的技术,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。基本原理是通过线性变换将原始数据投影到新的坐标系,使得投影后的数据方差最大。PCA算法所要达到的目标是,降维后的数据所损失的信息量应该尽可能的少。

PCA降维准则:

PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。整体和原样本的分布并没有多大的差距,点和点之间的距离更大了,区分度也更加明显。

最近重构性:样本集中所有点,重构后的点距离原来的点的误差之和最小。

最大可分性:样本在低维空间的投影尽可能分开。

PCA算法实现

(1)数据中心化:对X中的每一行(即一个特征属性)进行零均值化,即减去这一行的均值。

(2)求出数据中心化后矩阵X的协方差矩阵(即特征与特征之间的协方差构成的矩阵)。

(3)求解协方差矩阵的特征值和特征向量。

(4)将特征向量按照特征值从大到小按列进行排列称为矩阵,获取最前面的k列数据形成矩阵W。

(5)利用矩阵W和样本集X进行矩阵的乘法得到降低到k维的最终数据矩阵。

PCA算法效果展示

图片

图片

图片

图片

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值