![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
海量数据处理
fdssdfdsf
这个作者很懒,什么都没留下…
展开
-
海量数据处理
每年各大IT公司招聘的笔试题里面都有海量数据处理的问题,而这些问题在一般的课本中都找不到讲解。在此参考网上牛人的blog,写一个总结。 海量数据处理一般都是要解决非常大量的数据(一般以亿作为单位)的存储,查找等,数据不可能一次性存入到内存当中,往往采用分而治之的方法,将问题简化为我们熟知的状况。 其中使用到方法有: 1.存储问题 i.位图法 ii.hash映射 i原创 2012-09-03 10:14:07 · 418 阅读 · 0 评论 -
海量数据处理题集
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 因为ip地址本省就是用简单的数字表示,可以直接利用hash算法建立一个ip与访问次数的键值对。ip地址最多有2^32约等于40亿,对ip地址用1000取余,得到有1000个4M左右个记录的文件,每个文件都可以直接读入到内存中。然后按照访问次数对每个文件排序,取出每个文件中的最大值,在1000个最大值中再找到最大的那个。 2、原创 2012-09-03 10:41:51 · 557 阅读 · 0 评论