海量数据处理算法（top K问题）

最新推荐文章于 2023-05-27 23:36:40 发布

fesng

最新推荐文章于 2023-05-27 23:36:40 发布

阅读量4.3k

点赞数 1

分类专栏：面试计算机专业面试文章标签： c语言海量数据算法 hash xp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lpjishu/article/details/52626891

版权

计算机专业面试同时被 2 个专栏收录

113 篇文章 198 订阅

订阅专栏

104 篇文章 3 订阅

订阅专栏

举例

有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。

思路

首先把文件分开
针对每个文件hash遍历，统计每个词语的频率
使用堆进行遍历
把堆归并起来

具体的方案

1.分治：
顺序读文件中，对于每个词c，取hash(c)%2000，然后按照该值存到2000个小文件中。这样每个文件大概是500k左右。

注意：

如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。

2.hash遍历：
对每个小文件，用hash的方式统计每个文件中出现的词以及相应的频率

3.堆遍历：
用最小堆取出出现频率最大的100个词，并把100个词及相应的频率存入文件，这样又得到了5000个文件。

4.归并整合

下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
海量数据处理算法（top K问题）

举例有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。思路首先把文件分开针对每个文件hash遍历，统计每个词语的频率使用堆进行遍历把堆归并起来具体的方案1.分治：顺序读文件中，对于每个词c，取hash(c)%2000，然后按照该值存到2000个小文件中。这样每个文件大概是500k左右。注意：如果其中的有的文件超过了1M
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。