2010年08月_DeepIT

12月 08月 07月 06月 05月

转载海量数据处理方法总结

大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用

2010-08-18 18:04:00 540

转载海量数据处理---题目

问题实例：给你A,B两个文件，各存放50亿条URL，每条URL占用64字节，内存限制是4G，让你找出A,B文件共同的URL。如果是三个乃至n个文件呢？ 根据这个问题我们来计算下内存的占用，4G=2^32大概是40亿*8大概是340亿，n=50亿，如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿，相差并不多，这样可能会使出错率上升些。另外如果这些urlip是一一对应的，就可以转换成ip，则大大简单了。 问题实例： 1

2010-08-18 17:28:00 647

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

DeepIT的专栏

转载海量数据处理方法总结

转载海量数据处理---题目

原创编程珠玑第一章开篇总结

数学之美数学之美数学之美

IT学生解惑真经 IT学生解惑真经

C深度剖析C深度剖析

《算法导论》习题解答.rar

495个C语言问题 C经典参考

空空如也

转载 海量数据处理方法总结

转载 海量数据处理---题目

原创 编程珠玑第一章开篇 总结

数学之美数学之美数学之美

IT学生解惑真经 IT学生解惑真经

C深度剖析C深度剖析

《算法导论》习题解答.rar

495个C语言问题 C经典参考

空空如也

转载海量数据处理方法总结

转载海量数据处理---题目

原创编程珠玑第一章开篇总结