海量日志数据__怎么在海量数据中找出重复次数最多的一个;提取出某日访问网站次数最多的那个IP;提取出某日访问网站次数最多的前n个IP
问题一:
怎么在海量数据中找出重复次数最多的一个
算法思想:
方案1:先做hash,然后求模映射为小文件,求出每个小文件中重复次数最多的一个,并记录重复次数。
然后找出上一步求出的数据中重复次数最多的一个就是所求(如下)。
问题二:
网站日志中记录了用户的IP,找出访问次数最多的IP。
转载
2014-05-14 16:20:58 ·
3435 阅读 ·
0 评论