海量存储
huyfaeng
这个作者很懒,什么都没留下…
展开
-
海量数据处理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1: 可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。原创 2011-09-29 19:19:59 · 120 阅读 · 0 评论 -
海量数据处理方法总结
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到转载 2011-09-29 19:28:59 · 184 阅读 · 0 评论 -
各大计算机公司 笔试及面试 题目 - 专题(海量数据处理 一)
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小转载 2011-09-29 19:28:06 · 364 阅读 · 1 评论 -
各大计算机公司 笔试及面试 题目 - 专题(海量数据处理 二)
1、 海量数据分布在100台电脑中,想个办法高校统计出这批数据的TOP10。 方案1: s 在每台电脑上求出TOP10,可以采用包含10个元素的堆完成(TOP10小,用最大堆,TOP10大,用最小堆)。比如求TOP10大,我们首先取前10个元素调整成最小堆,如果发现,转载 2011-09-29 20:09:54 · 178 阅读 · 0 评论