解题笔记（9）——提取某日访问次数最多的那个IP

最新推荐文章于 2023-02-07 18:01:47 发布

wuzhekai1985

最新推荐文章于 2023-02-07 18:01:47 发布

阅读量3.6k

点赞数

分类专栏：解题笔记解题笔记文章标签： buffer string file mapreduce iterator output

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuzhekai1985/article/details/6625434

版权

问题描述：从海量数据日志中，提取出某日访问次数最多的那个IP。

思路：对于海量数据的处理，主要采取的策略就是分而治之，即缩减问题的规模，将一个大的问题划分成若干等价的小问题。然后解决这些小问题，最后将获得的小问题解综合起来，得出原问题的解。用到比较多的技术主要有散列、位图、堆、trie树、mapreduce、K路归并（败者树）等。其中散列用的尤为多。

对于本问题，假定某日访问的IP地址已经从数据日志中提取出来，存放在一个大的二进制文件中。下面的工作主要是找目标IP——文件中出现次数最多的那个IP。这个文件很大，内存无法完全放下，内排序的方法行不通。可以采取如下措施：

（1）利用散列函数，将大文件中的IP地址散列到若干个文件中。相同的IP地址肯定在同一个文件中。

（2）处理每个小文件，找到该文件中出现次数最多的那个IP，记录下IP地址和出现次数。可以用hash_map，IP地址为键值、出现次数为数值。

（3）将第（2）步中找到的IP地址及出现次数综合起来，找到这些IP地址中出现次数最多的那个IP。

简单实现：接下来给出一种简单的实现，效率比较低。测试中，从一个含4亿个IP地址的文件中提取目标IP，一共用了52分钟。其中大量的时间用于文件的读写，约为30分钟。另外有7分钟用于产生含4亿个随机数的文件。真正用于计算的时间为15分钟。由于C++标准ST

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
解题笔记（9）——提取某日访问次数最多的那个IP

问题描述：从海量数据日志中，提取出某日访问次数最多的那个IP。思路：对于海量数据的处理，主要采取的策略就是分而治之，即缩减问题的规模，将一个大的问题划分成若干等价的小问题。然后解决这些小问题，最后将获得的小问题解综合起来，得出原问题的解。用到比较多的技术主要有散列
复制链接

扫一扫

专栏目录

wuzhekai1985 CSDN认证博客专家 CSDN认证企业博客

码龄16年

87: 原创

5万+: 周排名

202万+: 总排名

131万+: 访问

: 等级

1万+: 积分

2071: 粉丝

629: 获赞

651: 评论

714: 收藏

私信

关注

热门文章

分类专栏

最新评论

解题笔记（26）——排队问题
m0_71324944: 是（0,1）吧，为啥还是（0,0）呢
设计模式C++实现（4）——单例模式
sunrise160: 大佬我想这个问题怎样解决？严重性代码说明项目文件行禁止显示状态错误 C2027 使用了未定义类型“SingletonA” 单例模式 c:\users\86198\source\repos\单例模式\单例模式\单例模式.cpp 28 严重性代码说明项目文件行禁止显示状态错误 C2027 使用了未定义类型“SingletonB” 单例模式 c:\users\86198\source\repos\单例模式\单例模式\单例模式.cpp 30 代码跟你的一样
设计模式C++实现（1）——工厂模式
楼仔: 我之前看了一篇设计模式的文章，详细讲解了常用的10种设计模式，让我不再陷入学完就忘的误区，希望可以一起学习交流哈~~ 《常用设计模式汇总，告诉你如何学习设计模式》：https://mp.weixin.qq.com/s/n3vsRQZPe0j5oIOk3umj7A
解题笔记（9）——提取某日访问次数最多的那个IP
Maisel: hash函数存在一定问题，要%file_num才行
解题笔记（9）——提取某日访问次数最多的那个IP
Maisel: 请问114行运行时出错：segmentation fault，是什么原因呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。