这道题目 的思路就是 :
先把大的文件分成小的文件,然后在逐个的在小文件中统计,这样就避免了一次性把所有的记录加载进来
承受不了!然后再对结果排序。
但是,这里有一个问题,怎么把大的文件分成小文件了?
看网友们的博客的时候,大家都说,对IP地址hash 然后再取模 == Hash(IP) % 1000;
然后,所有相同的IP地址就会映射到一个文件了,当时,脑袋就没转过弯来了,就在纳闷了,
难道,就只有1000个IP地址!!!
可是,他有没有说,小文件中IP地址 都是相同的....... 不同的IP地址取模相同的话,也会放在一个文件中的