多机求海量数据的中位数和topK的问题

最新推荐文章于 2022-07-26 14:13:09 发布

末日在做什么呢

最新推荐文章于 2022-07-26 14:13:09 发布

阅读量238

点赞数 1

分类专栏：分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h2517956473/article/details/117218812

版权

分布式专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

Top K 问题
如何在100亿数据中找到最大的1000个数
一、构建堆
二、分治法即大数据里最常用的MapReduce。a、将100亿个数据分为1000个大分区，每个区1000万个数据
三、Hash法。

Top K 问题

在大规模数据处理中，经常会遇到的一类问题：在海量数据中找出出现频率最好的前k个数，或者从海量数据中找出最大的前k个数，这类问题通常被称为top K问题

如何在100亿数据中找到最大的1000个数

最容易想到的就是将数据全排序，但是效率太低了，对于海量数据处理并不合适。

一、构建堆

用构建堆。（找1000个最大的数，构建最小堆）找1000个最小的数构建最大堆

我们知道完全二叉树有几个非常重要的特性，就是假如该二叉树中总共有N个节点，那么该二叉树的深度就是log2N，

对于小顶堆来说移动根元素到底部或者移动底部元素到根部只需要log2N，相比N来说时间复杂度优化太多了（1亿的logN值是26-27的一个浮点数）

具体思路：先从文件中取出1000个元素构建一个最小堆数组（O（log 1000）），然后对剩下的100亿-1000个数字m进行遍历,如果当前元素大于最小堆的堆顶，

就是K【0】元素，就用m取代k【0】，对新的数组从新构建小根堆。遍历结束，这个最小堆就是要找的数。

时间复杂度：O（(100亿 - 1000)log 1000）就是O((N-M)logM)，空间复杂度M

这个算法优点是性能尚可，空间复杂度低，IO读取比较频繁，对系统压力大。

二、分治法即大数据里最常用的MapReduce。a、将100亿个数据分为1000个大分区，每个区1000万个数据

二级分区

b、每个大分区再细分成100个小分区。总共就有1000*100=10万个分区

c、计算每个小分区上最大的1000个数

d、合并每个大分区细分出来的小分区。每个大分区有100个小分区，我们已经找出了每个小分区的前1000个数。将这100个分区的1000*100个数合并，找出每个大分区的前1000个数。

e、合并大分区。我们有1000个大分区，上一步已找出每个大分区的前1000个数。我们将这1000*1000个数合并，找出前1000.这1000个数就是所有数据中最大的1000个数

（a、b、c为map阶段，d、e为reduce阶段）

三、Hash法。

如果这1亿个书里面有很多重复的数，先通过Hash法，把这1亿个数字去重复，这样如果重复率很高的话，会减少很大的内存用量，从而缩小运算空间，

然后通过分治法或最小堆法查找最大的10000个数。

末日在做什么呢

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
多机求海量数据的中位数和topK的问题

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、多机数据处理中位数K二、使用步骤1.引入库2.读入数据总结一、多机数据处理中位数K有10台机器，每台机器保存着10亿个64-bit 整数（可有上下几千万浮动），一共有约100亿个整数（总共差不多80GB数据）10台机器和10亿数据用快排不现实，所以采用分布式的二分查找法1、将每台机器的数据排序2、client端使用二分猜数m，调用RPC方法查询每台机器小于 m的个数smaller，保证满足 smal
复制链接

扫一扫

专栏目录

末日在做什么呢 CSDN认证博客专家 CSDN认证企业博客

码龄8年

28: 原创

54万+: 周排名

68万+: 总排名

2万+: 访问

: 等级

355: 积分

12: 粉丝

51: 获赞

8: 评论

110: 收藏

私信

关注

热门文章

分类专栏

最新评论

MySQL的快照读(MVCC)和当前读(行锁、间隙锁、Next-Key Lock)解决幻读
孤寡孤寡孤寡孤寡。: 引用「假设索引a有1，3，5，8，11，其记录的GAP的区间如下：是一个左开右闭的空间（原因是默认主键的有」误人子弟，你已经说了索引a是默认主键的自增也就是a就是主键，下面又说间隙锁，根据主键查询是退化成行锁的！
MySQL的快照读(MVCC)和当前读(行锁、间隙锁、Next-Key Lock)解决幻读
孤寡孤寡孤寡孤寡。: 你这个索引a是普通索引吗还是联合索引
MySQL的快照读(MVCC)和当前读(行锁、间隙锁、Next-Key Lock)解决幻读
孤寡孤寡孤寡孤寡。: innodb技术内幕 p267页 next key lock降级成Record lock的时候，事务A对 a=5的记录进行查询，事务B插入a=4的记录，事务B是不会被阻塞的，那你写的这个 1-3 3， 3-5都被锁住是什么情况下呢
muduo网络库base篇四：生产者/消费者
晨哥是个好演员: 无界缓冲区无full条件只需要判断是否有数据可消费
RPC初解
大家一起学编程（python）: 6翻了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。