分组topn模型

最新推荐文章于 2024-04-09 13:26:11 发布

qzWsong

最新推荐文章于 2024-04-09 13:26:11 发布

阅读量337

点赞数

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/java_creatMylief/article/details/114680982

版权

spark 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

分组topn的几种算法

简单方式

1、用户少或者用户记录少

1）、根据uid分组，组内元素如果少的话就加载到内存然后orderby me，ts desc

2）、根据uid分组，如果用户少的话就把所有的用户都distinct出来然后，遍历用户，每次都filter出来，然后调用rdd的orderby（spark）

2、用户多，用户记录也多，上边两种都不是适合

1）、重写分区器（根据uid分区）和排序方法，相同分区内的元素取前n条

2）、重写分区器如果用户过多会导致分区很多也不是很完美

3 、绝招 sparksql---->row_number() over()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分组topn模型

分组topn的几种算法简单方式1、用户少或者用户记录少 1）、根据uid分组，组内元素如果少的话就加载到内存然后orderby me，ts desc 2）、根据uid分组，如果用户少的话就把所有的用户都distinct出来然后，遍历用户，每次都filter出来，然后调用rdd的orderby（spark）2、用户多，用户记录也多，上边两种都不是适合 1）、重写分区器（根据uid分区）和排序方法，相同分区内的元素取前n条 2）、重写分区器如果用...
复制链接

扫一扫

专栏目录

qzWsong CSDN认证博客专家 CSDN认证企业博客

码龄7年

180: 原创

3万+: 周排名

1万+: 总排名

14万+: 访问

: 等级

2456: 积分

163: 粉丝

162: 获赞

30: 评论

327: 收藏

私信

关注

热门文章

分类专栏

最新评论

doris docker部署和本地化部署 1.2.4.1版本
lemoba: docker logs be为啥显示注册失败 start check be register status~ 2024-06-13T11:41:22+00:00 [Note] [Entrypoint]: register is failed, wait next~ 2024-06-13T11:41:42+00:00 [Warn] [Entrypoint]: start check be register status~ 2024-06-13T11:41:42+00:00 [Note] [Entrypoint]: register is failed, wait next~ 2024-06-13T11:42:02+00:00 [Warn] [Entrypoint]: start check be register status~ 2024-06-13T11:42:02+00:00 [Note] [Entrypoint]: register is failed, wait next~ 但是mysql show PROC 显示正常的
FlinkSql，如何开窗，如何进行窗口内计算
weixin_45903974: 1.12版本支持这个吗
访问https网站，edge浏览器，thisisunsafe不生效
qzWsong: F12 控制台/console
访问https网站，edge浏览器，thisisunsafe不生效
温果果: 打开哪里的控制台呢
java Poi操作Excel,插入行,保留行格式
qinfinger: 这个writter意义不明，我删掉了也能运行成功。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。