- 博客(3)
- 资源 (7)
- 收藏
- 关注
转载 海量数据处理方法总结
<br />大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 <br /><br />下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 <br /><br />1.Bloom filter <br /><br />适用范围:可以用
2010-08-18 18:04:00 540
转载 海量数据处理---题目
<br /><br />问题实例:给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。如果是三个乃至n个文件呢? <br /><br />根据这个问题我们来计算下内存的占用,4G=2^32大概是40亿*8大概是340亿,n=50亿,如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿,相差并不多,这样可能会使出错率上升些。另外如果这些urlip是一一对应的,就可以转换成ip,则大大简单了。<br />问题实例: <br />1
2010-08-18 17:28:00 647
原创 编程珠玑第一章开篇 总结
<br /> 看这本书时,心里默默告诉自己,要好好琢磨,不可求速度,要看自己吸收了多少。<br /> 现在把第一章总结下:<br />当遇到一个问题时,解决的一般原理为:<br />第一:正确的问题。明确问题,这场战役就成功了90%。对问题进行形式化的描述是很关键的,把输入、输出和约束亲手写下来。<br /> 输入:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7。如果在输入文件中有任何整数重复出现就是致命错误。没有其他数据和该整数相关联。<br /> 输出:按升序排列的输入整数的
2010-08-18 17:17:00 773
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人