大规模数据相似度计算时,解决数据倾斜的问题的思路之一(分块思想)

面对大规模用户、item矩阵,计算两两用户相似度时会出现数据倾斜。通过采用倒排索引减少计算量,但在用户量和item量大的情况下,仍存在效率问题。为了解决这一问题,可以运用矩阵分块思想,将用户量大的item分散到多个reduce中处理,提高运行速度。虽然这会增加网络通信量,但可以通过设定阈值动态调整分块数量来平衡。本文介绍了固定分块策略,利用MapReduce在reduce阶段处理对角线及上三角矩阵的用户相似度计算。
摘要由CSDN通过智能技术生成

        现有user、item矩阵,如何计算两两用户的相似度呢?最直接的方法就是夹角余弦,计算用户向量之间的cos值,来度量相似度。因为实际问题中,矩阵通常是很稀疏的,所以真正实现cos计算相似度计算的时候,为了减少计算量,采用的的是倒排索引的数据结构。即:

        虽然采用的倒排的结构,但是用户量和item量很大,且有些item对应的用户量很大的时候,就会出现严重的数据倾斜问题。以MapReduce实现过程为例,如果大多数item对应用户量都是几十万的级别,少量item对应user量很大,例如百万以上,则聚集到这些item上(即对应的reduce上)的数据量就会很大,此时就出现数据倾斜的问题,整体速度方面就会很慢。如何解决这种数据倾斜的问题呢?

        解决上面提到的数据倾斜问题,可采用矩阵

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值