海量数据的处理【位图】【分治】【hashmap】【大顶堆】

最新推荐文章于 2023-09-18 00:20:59 发布

打不过我吧

最新推荐文章于 2023-09-18 00:20:59 发布

阅读量678

点赞数 1

分类专栏：数据结构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42674696/article/details/105340880

版权

目录

如何找出排名前 500 的数？

如何按照 query 的频度排序？

如何从 5 亿个数中找出中位数？

如何统计不同电话号码的个数？

如何查询最热门的查询串？

如何在大量的数据中判断一个数是否存在？

如何在大量的数据中找出不重复的整数？

如何找出某一天访问百度网站最多的 IP？

如何从大量数据中找出高频词？

如何从大量的 URL 中找出相同的 URL？

不同数据类型字节数

如何找出排名前 500 的数？

题目描述

有 20 个数组，每个数组有 500 个元素，并且有序排列。如何在这 20*500 个数中找出前 500 的数？

解答思路

对于 TopK 问题，最常用的方法是使用堆排序。对本题而言，假设数组降序排列，可以采用以下方法：

首先建立大顶堆，堆的大小为数组的个数，即为 20，把每个数组最大的值存到堆中。

接着删除堆顶元素，保存到另一个大小为 500 的数组中，然后向大顶堆插入删除的元素所在数组的下一个元素。

重复上面的步骤，直到删除完第 500 个元素，也即找出了最大的前 500 个数。

为了在堆中取出一个数据后，能知道它是从哪个数组中取出的，从而可以从这个数组中取下一个值，可以把数组的指针存放到堆中，对这个指针提供比较大小的方法。

https://github.com/doocs/advanced-java/blob/master/docs/big-data/find-rank-top-500-numbers.md

如何按照 query 的频度排序？

题目描述

有 10 个文件，每个文件大小为 1G，每个文件的每一行存放的都是用户的 query，每个文件的 query 都可能重复。要求按照 query 的频度排序。

解答思路

如果 query 的重复度比较大，可以考虑一次性把所有 query 读入内存中处理；如果 query 的重复率不高，那么可用内存不足以容纳所有的 query，这时候就需要采用分治法或其他的方法来解决。

方法一：HashMap 法

如果 query 重复率高，说明不同 query 总数比较小，可以考虑把所有的 query 都加载到内存中的 HashMap 中。接着就可以按照 query 出现的次数进行排序。

方法二：分治法

分治法需要根据数据量大小以及可用内存的大小来确定问题划分的规模。

对于这道题，可以顺序遍历 10 个文件中的 query，通过 Hash 函数 hash(query) % 10 把这些 query 划分到 10 个小文件中。之后对每个小文件使用 HashMap 统计 query 出现次数，根据次数排序并写入到零外一个单独文件中。

接着对所有文件按照 query 的次数进行排序，这里可以使用归并排序（由于无法把所有 query 都读入内存

最低0.47元/天解锁文章

打不过我吧

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
海量数据的处理【位图】【分治】【hashmap】【大顶堆】

目录如何找出排名前 500 的数？题目描述解答思路如何按照 query 的频度排序？题目描述解答思路方法总结如何从 5 亿个数中找出中位数？题目描述解答思路方法总结如何统计不同电话号码的个数？题目描述解答思路方法总结如何查询最热门的查询串？题目描述解答思路方法总结如何在大量的数据中判断一个数是否存在？题目描述解...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。