数据降维技术——PCA（主成分分析）

最新推荐文章于 2023-04-24 17:15:47 发布

muyang_muzi

最新推荐文章于 2023-04-24 17:15:47 发布

阅读量7.5k

点赞数 2

分类专栏：机器学习文章标签：数据降维 PCA 机器学习数据中心 hashmap

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013159040/article/details/45645729

版权

PCA（主成分分析）是一种常用的数据降维方法，用于降低数据复杂性并识别关键特征。通过数据中心化、计算协方差矩阵、求解特征值和特征向量，最终选择特征值大于阈值的主成分。PCA适用于数值型数据，可用于减少数据维度，但可能损失部分信息。文章介绍了PCA的步骤，并提供了Java实现PCA算法的代码示例。

摘要由CSDN通过智能技术生成

为什么要对数据进行降维？

在机器学习或者数据挖掘中，我们往往会get到大量的数据源，这些数据源往往有很多维度来表示它的属性，但是我们在实际处理中只需要其中的几个主要的属性，而其他的属性或被当成噪声处理掉。比如，13*11的源数据经过将为后变成了13*4的优化数据，那么，中间就减去了7个不必要的属性，选取了4个主要属性成分，简化了计算。

常用的数据降维方法有：主成分分析、因子分析、独立成分分析。本文仅介绍主成分分析方法。

主成分分析（PCA，Principal Component Analysis），其中的数学原理可参考360图书馆http://www.360doc.com/content/13/1124/02/9482_331688889.shtml

优点：

降低数据的复杂性，识别最重要的多个特征。

缺点：

不一定需要，且可能损失有用的信息。

适用类型：

数值型数据。

木羊根据自己的学习与理解总结出的PCA步骤：

获取n行m列原始数据，写成n*m的矩阵形式；
数据中心化。即把每个属性的均值处理设为0（下面木羊将给出自己编写的源代码，木羊的数据用列代表属性，在该步骤中，就把每列的均值都设置为0）。
根据中心化后的矩阵求协方差矩阵。协方差有三种值，0表示属性之间相互独立，没有影响；正值表示属性是正相关的关系，若属性A和属性B是正相关关系，则A增加B也增加，A减小B也减小；负值表示属性是负相关的关系，若属性C和属性D是负相关关系，则C增加D减小，C减小D增加。所以，协方差矩阵也可以理解为相关系数矩阵，表示属性间的相关程度。
根据协方差矩阵求特征值矩阵。特征值矩阵只有对角线上的元素有值，上三角和下三角元素都为0.
根据特征值矩阵求对应的特征向量。
对特征值矩阵进行排序，并设定一个阈值，若前i个特征矩阵的和>=设定的阈值，则就有i个主成分，取其对应的特征向量，定为主成分向量矩阵。
原始矩阵乘以转置后的主成分向量即得降维后的矩阵。比如，原始数据是150*4的矩阵，在步骤6中取得了2个主成分，那么主成分矩阵就是2*4的矩阵。150*4的矩阵乘以4*2的矩阵，即得150*2的矩阵，体现了降维效果。（选取这个属性较少的数据集是为了方便初学者的理解，在实际工程中，我们的属性值往往不止4个，但降维方法都一样的。）

最低0.47元/天解锁文章

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。