一、海量日志数据,如何提取出某日访问百度次数最多的那个IP?
答:分而治之 + hash映射 + 排序算法
- IP地址最多有2^32=4G种取值情况。可以采用“分而治之”的思想,首先利用哈希方法将所有IP地址对1024取余(ip%1024),得到1024个4MB的IP地址。
- 对于每个小文件构建一个ip为key,出现次数为value的hash map(ip->key、hash map->value),通过这样可以找到当前出现次数最多的IP地址。
- 再对1024个文件中分别出现次数最多的IP地址进行排序算法,就可以找到某日访问百度次数最多的那个IP地址了。
二、假设现在有一千万个检索串的查询记录(去重后不超过三百万个,重复度越高说明越热门)。统计最热门的10个查询串,要求使用的内存不能超过1G。
答:典型的topK算法。 hash表 + 堆排序
- 首先通过hash表对这一千万个检索串进行统计,时间复杂度O(n).
- 再通过堆这个数据结构,找到出现次数最多的前10(topK)个查询串,时间复杂度O(nlogK).即就是借助堆结构,我们可以在log量级的时间内查找、调整、移动等。因此维护一个K大小的小根堆(该题目中是10),然后对这三千万的查询串进行遍历,分别跟堆元素进行对比。总共的时间复杂度是O(n) + O(n*logK).