大规模数据相似度计算时，解决数据倾斜的问题的思路之一（分块思想）

最新推荐文章于 2023-10-07 11:01:22 发布

玉心sober

最新推荐文章于 2023-10-07 11:01:22 发布

阅读量1.2w

点赞数 1

分类专栏：相似度计算矩阵分块文章标签：矩阵分块相似度计算用户相似度计算数据倾斜

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilyth_lilyth/article/details/9269693

版权

面对大规模用户、item矩阵，计算两两用户相似度时会出现数据倾斜。通过采用倒排索引减少计算量，但在用户量和item量大的情况下，仍存在效率问题。为了解决这一问题，可以运用矩阵分块思想，将用户量大的item分散到多个reduce中处理，提高运行速度。虽然这会增加网络通信量，但可以通过设定阈值动态调整分块数量来平衡。本文介绍了固定分块策略，利用MapReduce在reduce阶段处理对角线及上三角矩阵的用户相似度计算。

摘要由CSDN通过智能技术生成

现有user、item矩阵，如何计算两两用户的相似度呢？最直接的方法就是夹角余弦，计算用户向量之间的cos值，来度量相似度。因为实际问题中，矩阵通常是很稀疏的，所以真正实现cos计算相似度计算的时候，为了减少计算量，采用的的是倒排索引的数据结构。即：

虽然采用的倒排的结构，但是用户量和item量很大，且有些item对应的用户量很大的时候，就会出现严重的数据倾斜问题。以MapReduce实现过程为例，如果大多数item对应用户量都是几十万的级别，少量item对应user量很大，例如百万以上，则聚集到这些item上（即对应的reduce上）的数据量就会很大，此时就出现数据倾斜的问题，整体速度方面就会很慢。如何解决这种数据倾斜的问题呢？

解决上面提到的数据倾斜问题，可采用矩阵

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。