自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

aicodex的博客

数据不平衡

关注

关注数：文章数：1 文章阅读量：1982 文章收藏量：4

作者: aicodex

有智者，事竟成。

展开

Spark数据不平衡(数据倾斜)特定领域的两个解决方案。

背景最近在做推荐系统，其中要对数据做召回，需要快速为每个待推荐的“用户”召回100个左右的“电影”。此时一个简单的想法就是计算每个“用户”和“电影”的“相关度”，取top100。假设“用户”和“电影”都有标签。例如“科幻”，“动作”。那么在计算top100，可以只计算同key的相关度。实现的时候很简单，假设你把用户数据读取好了,电影数据也读取好了 val user = sc.paral...

原创 2019-05-17 17:49:58 · 1982 阅读 · 0 评论