1)首先从海量日志数据中找出这一天访问百度的IP,将这些IP写入一个大文件中
2)然后对于该大文件中的每一个ip,求hash(ip)%1000,这样将这个大文件映射成了1000个小文件
3)遍历这1000个小文件,对于每一个小文件使用hash_map进行频率统计,排序之后选出该小文件中频率最大的IP及相应的频率
4)这样就得到了1000个<IP,COUNT(IP)>,最后再从这1000个IP中找到频率最大的那个IP。
1)首先从海量日志数据中找出这一天访问百度的IP,将这些IP写入一个大文件中
2)然后对于该大文件中的每一个ip,求hash(ip)%1000,这样将这个大文件映射成了1000个小文件
3)遍历这1000个小文件,对于每一个小文件使用hash_map进行频率统计,排序之后选出该小文件中频率最大的IP及相应的频率
4)这样就得到了1000个<IP,COUNT(IP)>,最后再从这1000个IP中找到频率最大的那个IP。