Spark Mllib数据挖掘入门十——数据降维

最新推荐文章于 2024-05-05 12:15:56 发布

千里之行起于足下

最新推荐文章于 2024-05-05 12:15:56 发布

阅读量498

点赞数

分类专栏：数据挖掘文章标签：大数据人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011249837/article/details/114124143

版权

数据挖掘专栏收录该内容

8 篇文章 1 订阅

订阅专栏

数据降维又称为维数约简，从名称上看就是降低数据的维数。目前MLlib中使用的降维方法主要有两种：奇异值分解（SVD）和主成分分析（PCA）。

1.奇异值分解（SVD）

奇异值分解是矩阵分解计算的一种常用方法，将一个矩阵分解成带有方向向量的矩阵相乘。将一个大矩阵分解为若干个低维度的矩阵来表示是其最终目的。对于数据中包含的一些不是很重要的信息，可以通过不同的方式给予去除，从而可以节省资源以投放在更重要的工作中，这也是数据降维的目的。
这样做的好处是能够极大地减少矩阵的存储空间，很多数据矩阵在经过SVD处理后，其所占空间只有原先的10％左右，从而极大地提高运算效率。

2.主成分分析

主成分分析是设法将原来众多具有一定相关性（比如P个指标）的指标，重新组合成一组新的互相无关的综合指标来代替原来的指标，从而实现数据降维的目的，这也是MLlib的处理手段之一。

数据降维为大数据的数据维数过多、噪音过多提供了相应的解决方法，提高了大数据运算效率。

千里之行起于足下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Mllib数据挖掘入门十——数据降维

数据降维又称为维数约简，从名称上看就是降低数据的维数。目前MLlib中使用的降维方法主要有两种：奇异值分解（SVD）和主成分分析（PCA）。1.奇异值分解（SVD）奇异值分解是矩阵分解计算的一种常用方法，将一个矩阵分解成带有方向向量的矩阵相乘。将一个大矩阵分解为若干个低维度的矩阵来表示是其最终目的。对于数据中包含的一些不是很重要的信息，可以通过不同的方式给予去除，从而可以节省资源以投放在更重要的工作中，这也是数据降维的目的。这样做的好处是能够极大地减少矩阵的存储空间，很多数据矩阵在经过SVD处理后
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。