一文看懂大数据矩阵运算利器-Spark Distributed Matrix

极客小普冲呀

于 2021-11-01 14:04:05 发布

阅读量1.3k

点赞数

分类专栏：人工智能技术讨论文章标签： spark big data 矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pushiai/article/details/121078975

版权

本文介绍了Spark的分布式矩阵如何解决大数据场景下的矩阵运算问题，特别是在大规模相似度计算中的应用。通过分布式矩阵的特性，如RowMatrix、IndexedRowMatrix、CoordinateMatrix和BlockMatrix，Spark能够有效地处理内存溢出和提高计算速度，尤其是在处理稀疏矩阵和大型矩阵乘法时。

摘要由CSDN通过智能技术生成

如今是大数据的时代，数据呈指数型增长，那么如何利用这些数据？离不开大数据计算，今天小普给大家介绍的是：Spark的分布式计算框架，它能很好地适配大数据场景下的计算任务。

【相似度计算】是金融领域或商品推荐等领域的常见需求，如果需要计算M个用户两两之间的相似度情况，若用户特征个数为N。

如果采用循环遍历的计算方式，我们需要计算M*(M-1)次才能得到两两用户之间的相似度情况。

而如果我们采用矩阵计算的方式，只需构造一个M*N维的矩阵A，

做一些简单的矩阵运算：

运算的结果矩阵元素的下标，就对应这用户与用户之间的欧式距离情况，如元素A32, 便是用户3和用户2的欧式距离。在数据量较大的情况，相较于循环遍历的方法，矩阵运算可以节省很多时间。

然而，大数据场景下，数据量经常会变得非常极端，如：

要计算1亿个用户两两之间的相似度，哪怕用户的特征维度仅为5，也需要构造一个100,000,000*5 的矩阵。而矩阵计算过程中的中间矩阵，如

A*AT

会得到100,000,000*100,000,000 的中间矩阵

如果直接进行内存运算的话，大概需要9094Tb 的内存，势必会导致内存溢出。

Spark 的分布式矩阵为上述大数据场景提供了一种可行的解决方案，在介绍分布式矩阵之前，需要先介绍Spark.mllib中的矩阵特质。

最低0.47元/天解锁文章

极客小普冲呀

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。