- 博客(2)
- 资源 (1)
- 收藏
- 关注
转载 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。
说明:本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。------------------------------------ 第一部分:Top K 算法详解问题描述百度面试题: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询
2016-08-12 13:36:55 7109 1
转载 提取出某日访问百度次数最多的那个IP
问题描述:海量日志数据,提取出某日访问百度次数最多的那个IP。方法: 计数法 假设一天之内某个IP访问百度的次数不超过40亿次,则访问次数可以用unsigned表示.用数组统计出每个IP地址出现的次数, 即可得到访问次数最大的IP地址. IP地址是32位的二进制数,所以共有N=2^32=4G个不同的IP地址, 创建一个unsigned count[N];的数组
2016-08-12 11:05:15 7516
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人