海量数据处理的相关问题整理

 

一、海量日志数据,如何提取出某日访问百度次数最多的那个IP?

答:分而治之 + hash映射 + 排序算法

  1. IP地址最多有2^32=4G种取值情况。可以采用“分而治之”的思想,首先利用哈希方法将所有IP地址对1024取余(ip%1024),得到1024个4MB的IP地址。
  2. 对于每个小文件构建一个ip为key,出现次数为value的hash map(ip->key、hash map->value),通过这样可以找到当前出现次数最多的IP地址。
  3. 再对1024个文件中分别出现次数最多的IP地址进行排序算法,就可以找到某日访问百度次数最多的那个IP地址了。

二、假设现在有一千万个检索串的查询记录(去重后不超过三百万个,重复度越高说明越热门)。统计最热门的10个查询串,要求使用的内存不能超过1G。

答:典型的topK算法。 hash表 + 堆排序 

  1. 首先通过hash表对这一千万个检索串进行统计,时间复杂度O(n).
  2. 再通过堆这个数据结构,找到出现次数最多的前10(topK)个查询串,时间复杂度O(nlogK).即就是借助堆结构,我们可以在log量级的时间内查找、调整、移动等。因此维护一个K大小的小根堆(该题目中是10),然后对这三千万的查询串进行遍历,分别跟堆元素进行对比。总共的时间复杂度是O(n) + O(n*logK).
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值