海量数据的TopK问题

最新推荐文章于 2024-05-13 09:45:00 发布

Anstrue

最新推荐文章于 2024-05-13 09:45:00 发布

阅读量594

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/beautiful_face/article/details/77506260

版权

从海量数据中找出最大的前K个数

一个基本的是思想是分治法，将1亿个数据分成100份，每份100万个数据，找出每份中最大的100个，最终可以在这100*100个数据中找出最大的100个。

快速排序法

我们知道，快排一次的结果是分界点前面的数据比他小，分界点后的比他大，我们可以做如下的讨论

如果分界点后面的数据个数大于k个，那么可以在后面的数据中重复上述过程

如果分界点后面的数据个数小于k个，其个数为m个，那么可以在前面的数据中找到k-m个最大的

因此，我们总可以在这一堆数据中找到前k个比较大的

基于小顶堆来实现TopK

容易证明，小顶堆的堆顶元素是最小的，维护一个K个数据的小顶堆，依次读入一个元素，若元素大于堆顶元素，则将堆顶元素移除，当前元素插入堆顶，并进行调整。

基于优先级队列来实现

维护一个K长的优先级队列，不断把优先级低的数组出队，最终剩下来的就是前k个最大的

在海量数据中找出出现频率最高的前K个数

在这个问题中，我们需要构造一个map来统计频率，然后问题转化为计算value值属于钱k大的问题，这时可以套用基本的TopK问题

参考文献：十道海量数据处理面试题与十个方法大总结

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
海量数据的TopK问题

从海量数据中找出最大的前K个数一个基本的是思想是分治法，将1亿个数据分成100份，每份100万个数据，找出每份中最大的100个，最终可以在这100*100个数据中找出最大的100个。快速排序法我们知道，快排一次的结果是分界点前面的数据比他小，分界点后的比他大，我们可以做如下的讨论如果分界点后面的数据个数大于k个，那么可以在后面的数据中重复上述过程如果分界点后面的数据个数小于
复制链接

扫一扫

Anstrue CSDN认证博客专家 CSDN认证企业博客

码龄9年

95: 原创

8万+: 周排名

128万+: 总排名

21万+: 访问

: 等级

2881: 积分

25: 粉丝

92: 获赞

12: 评论

155: 收藏

私信

关注

热门文章

分类专栏

最新评论

程序员的十个层次
WINandWIN123: 受教了
用Visual Studio查看汇编代码
西红柿炒螺丝钉: wc牛逼老兄，给你搬个奖！
用Visual Studio查看汇编代码
baiyu33: 你是在搞笑吗，release模式也可以下断点反汇编，你不知道吗。。
论文常用软件
@peter88: 煦航论文排版软件可以了解一下。https://www.xuhangnet.cn
详解Object类的equals方法
weixin_44881178: 作者应该也是复制粘贴的，其实两者唯一的区别是一个是object里面的方法一个不是。别的没区别了，是object的方法就能用来比较引用对象还可以重写，。其余的如果你不重写没区别，基本数据类型不属于object类所以不能用equals，但是引用类型也要比较怎么办呢，这时equals诞生了。你要比较基本类型一定要用equals可以用它的包装类就可以了！理解这个主要还是要看jvm储存机智和栈堆的区别。有时候不用看里面方法一看就知道这个方法大致怎么写的了！所有语言其实思想都大致一个样子！精通一门语言其余的很简单

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。