从一亿个ip找出出现次数最多的IP(分治法)

最新推荐文章于 2023-01-02 17:18:12 发布

seen_in_hw

最新推荐文章于 2023-01-02 17:18:12 发布

阅读量6.8k

点赞数

分类专栏： C 经典算法探究

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23100787/article/details/80392135

版权

这篇博客介绍了如何在海量数据中应用分治法找出出现次数最多的IP地址和身份证号。通过哈希映射和分块策略，将大问题分解成小文件进行处理，然后在每个小文件中使用字典树或哈希表统计出现次数，最后通过比较各个小文件中的最大值找出全局最频繁的IP。这种方法同样适用于找出出现次数最多的前k个元素。

摘要由CSDN通过智能技术生成

/*
1,hash散列
2,找到每个块出现次数最多的(默认出现均匀)—–>可以用字典树
3,在每个块出现最多的数据中挑选出最大的为结果
*/

问题一：
怎么在海量数据中找出重复次数最多的一个
算法思想：
方案1：先做hash，然后求模映射为小文件，求出每个小文件中重复次数最多的一个，并记录重复次数。
然后找出上一步求出的数据中重复次数最多的一个就是所求（如下）。

问题二：
网站日志中记录了用户的IP，找出访问次数最多的IP。
算法思想：
IP地址最多有2^32=4G种取值可能，所以不能完全加载到内存中。
可以考虑分而治之的策略；
map
按照IP地址的hash(IP)%1024值，将海量日志存储到1024个小文件中，每个小文件最多包含4M个IP地址。
reduce
对于每个小文件，可以构建一个IP作为key，出现次数作为value的hash_map，并记录当前出现次数最多的1个IP地址。
有了1024个小文件中的出现次数最多的IP，我们就可以轻松得到总体上出现次数最多的IP。

原文地址：
http://blog.csdn.net/cnnumen/article/details/5781226

同样的问题：
假设有1kw个身份证号，以及他们对应的数据。身份证号可能重复，要求找出出现次数最多的身份证号。

补充问题：
如果是要找出前k个最

最低0.47元/天解锁文章

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。