现有user、item矩阵,如何计算两两用户的相似度呢?最直接的方法就是夹角余弦,计算用户向量之间的cos值,来度量相似度。因为实际问题中,矩阵通常是很稀疏的,所以真正实现cos计算相似度计算的时候,为了减少计算量,采用的的是倒排索引的数据结构。即:
虽然采用的倒排的结构,但是用户量和item量很大,且有些item对应的用户量很大的时候,就会出现严重的数据倾斜问题。以MapReduce实现过程为例,如果大多数item对应用户量都是几十万的级别,少量item对应user量很大,例如百万以上,则聚集到这些item上(即对应的reduce上)的数据量就会很大,此时就出现数据倾斜的问题,整体速度方面就会很慢。如何解决这种数据倾斜的问题呢?
解决上面提到的数据倾斜问题,可采用矩阵
面对大规模用户、item矩阵,计算两两用户相似度时会出现数据倾斜。通过采用倒排索引减少计算量,但在用户量和item量大的情况下,仍存在效率问题。为了解决这一问题,可以运用矩阵分块思想,将用户量大的item分散到多个reduce中处理,提高运行速度。虽然这会增加网络通信量,但可以通过设定阈值动态调整分块数量来平衡。本文介绍了固定分块策略,利用MapReduce在reduce阶段处理对角线及上三角矩阵的用户相似度计算。
最低0.47元/天 解锁文章
5068

被折叠的 条评论
为什么被折叠?



