Spark数据不平衡(数据倾斜)特定领域的两个解决方案。
背景
最近在做推荐系统,其中要对数据做召回,需要快速为每个待推荐的“用户”召回100个左右的“电影”。此时一个简单的想法就是计算每个“用户”和“电影”的“相关度”,取top100。假设“用户”和“电影”都有标签。例如“科幻”,“动作”。那么在计算top100,可以只计算同key的相关度。
实现的时候很简单,假设你把用户数据读取好了,电影数据也读取好了
val user = sc.paral...
原创
2019-05-17 17:49:58 ·
1982 阅读 ·
0 评论