分组topn模型

分组topn的几种算法

 

简单方式

1、用户少或者用户记录少

    1)、根据uid分组,组内元素如果少的话就加载到内存 然后orderby me,ts desc

    2)、根据uid分组,如果用户少的话就把所有的用户都distinct出来然后,遍历用户,每次都filter出来,然后调用rdd的orderby(spark)

2、用户多,用户记录也多,上边两种都不是适合

    1)、重写分区器(根据uid分区)和排序方法,相同分区内的元素取前n条

    2)、重写分区器 如果用户过多 会导致分区很多 也不是很完美

3 、绝招  sparksql---->row_number() over() 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值