从100亿条记录的文本文件中取出重复数最多的前10条

最新推荐文章于 2024-03-02 12:32:16 发布

qq_26498709

最新推荐文章于 2024-03-02 12:32:16 发布

阅读量1w

点赞数 5

分类专栏：算法文章标签：分治算法海量数据

本文链接：https://blog.csdn.net/qq_26498709/article/details/78432054

版权

面对100亿条IP地址的文本文件，大小约为100GB，通过哈希分治策略将其分为10000份，每份10MB以便内存处理。Map阶段由master计算机完成文件划分，Reduce阶段由worker计算机对每个小文件统计最多重复的IP。每个worker返回前10个IP，master再从所有结果中找出全局的前10个重复最多IP。此过程体现了MapReduce的分布式并行处理思想。

摘要由CSDN通过智能技术生成

场景

哈希分治法
这是一个 ip 地址 127.0.0.1
假设有100亿个这样的 ip 地址存在文件中
这个文件大小大约是 100GB
问题：要统计出100亿个 ip 中，重复出现次数最多的前10个

分析

100GB 几乎不可能一次加载进内存进行操作，所以必须要拆分
那么可以利用分治的思想，把规模大的问题化小，然后解决各个小的问题，最后得出结果。

实现思路

ipv4 地址是一个 32 位的整数，可以用 uint 保存。
我先设计一个哈希函数，把100个G的文件分成10000份，每份大约是 10MB，可以加载进内存了。

例如：我设计一个简单的哈希函数是 f(ip) = ip % 10000，(ip 是个32位整数)
那么 5 % 10000 = 5，不管 5 在哪个地方 5 % 10000 的结果都是 5，这就保证了相同的 ip 会被放在同一个子文件中，方便统计&#

最低0.47元/天解锁文章

qq_26498709

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
从100亿条记录的文本文件中取出重复数最多的前10条

场景哈希分治法这是一个 ip 地址 127.0.0.1 假设有100亿个这样的 ip 地址存在文件中这个文件大小大约是 100GB 问题：要统计出100亿个 ip 中，重复出现次数最多的前10个分析100GB 几乎不可能一次加载进内存进行操作，所以必须要拆分那么可以利用分治的思想，把规模大的问题化小，然后解决各个小的问题，最后得出结果。实现思路ipv4 地址是一个 32 位的整数，
复制链接

扫一扫

专栏目录