日志文件中存储有10亿个IP，有些IP重复出现，找出重复出现次数最多的10个ip（无法放进内存）

最新推荐文章于 2021-08-18 22:14:19 发布

ly92are1999

最新推荐文章于 2021-08-18 22:14:19 发布

阅读量1.8k

点赞数

文章标签：存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ly92are1999/article/details/6739668

版权

我的想法是

1 首先利用取模分块文件存储，如用hash(ip)对1000取模，这样就大概分成了1000个文件(同一个ip只可能出现在一个文件里)

2 然后从一个文件开始到第1000个文件，对每个文件分别进行这种操作：

放进内存中, 利用hash技术求出每个ip对应的出现次数，然后求出该文件中出现次数前10的放在内存中(堆或类快排)，剩下的丢掉

3 此时内存中剩下10*1000个ip,用第一个文件的10个建立最小堆

4 然后对于剩下的每一个ip: 与跟元素的出现次数比较，如果大于，替换之，然后调整堆使其保持最小堆的性质，否则，无处理(或者34步可以用下面方法代替)

（34的代替方案）用类似快速排序的方法选出出现次数前10的ip

即最小堆中始终保持最大的10个ip的出现次数

ps:好像用类快排选择最大的k个数平均情况 T(n)=T(n/2)+n 时间复杂度应该为O(n) ，所以这个应该更好

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
日志文件中存储有10亿个IP，有些IP重复出现，找出重复出现次数最多的10个ip（无法放进内存）

我的想法是1 首先利用取模分块文件存储，如用hash(ip)对1000取模，这样就大概分成了1000个文件(同一个ip只可能出现在一个文件里) 2 然后从一个文件开始到第1000个文件，对每个文件分别进行这种操作：放进内存中, 利用
复制链接

扫一扫

ly92are1999 CSDN认证博客专家 CSDN认证企业博客

码龄15年

78: 原创

111万+: 周排名

139万+: 总排名

4万+: 访问

: 等级

1509: 积分

8: 粉丝

1: 获赞

6: 评论

1: 收藏

私信

关注

热门文章

最新评论

括号的配对数
tmjnng 回复 henning1314: 可以百科一下卡塔兰数
最长公共子序列----java实现
拾壹女: 很好～～～
括号的配对数
henning1314: 请教下，这个算法没太看懂，为什么 n<m f(n,m) = f(n-1 , m)+ f(n, m-1) 这个是怎么得到的呢，谢谢。
括号的配对数
henning1314: 这个能用C++写一下吗，pacal没看太懂。
数组中找出和为定值的整数对
hawking_zhao: 我也是想出的这个算法，但是后来想了一下有两个问题： 1、有重复值的时候需要修改，这个好解决 2、如果要求返回数值的下标，需要调整对于第二个问题，博主有好的办法不？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。