海量日志数据,提取出某日访问百度次数最多的那个IP

  这道题目 的思路就是 :

    先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来

承受不了!然后再对结果排序。

 

   但是,这里有一个问题,怎么把大的文件分成小文件了?

   看网友们的博客的时候,大家都说,对IP地址hash 然后再取模  == Hash(IP) % 1000;

   然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,

   难道,就只有1000个IP地址!!!

   可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值