自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 资源 (7)
  • 收藏
  • 关注

转载 海量数据处理方法总结

<br />大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 <br /><br />下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 <br /><br />1.Bloom filter <br /><br />适用范围:可以用

2010-08-18 18:04:00 540

转载 海量数据处理---题目

<br /><br />问题实例:给你A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。如果是三个乃至n个文件呢? <br /><br />根据这个问题我们来计算下内存的占用,4G=2^32大概是40亿*8大概是340亿,n=50亿,如果按出错率0.01算需要的大概是650亿个bit。现在可用的是340亿,相差并不多,这样可能会使出错率上升些。另外如果这些urlip是一一对应的,就可以转换成ip,则大大简单了。<br />问题实例: <br />1

2010-08-18 17:28:00 647

原创 编程珠玑第一章开篇 总结

<br /> 看这本书时,心里默默告诉自己,要好好琢磨,不可求速度,要看自己吸收了多少。<br /> 现在把第一章总结下:<br />当遇到一个问题时,解决的一般原理为:<br />第一:正确的问题。明确问题,这场战役就成功了90%。对问题进行形式化的描述是很关键的,把输入、输出和约束亲手写下来。<br />    输入:一个最多包含n个正整数的文件,每个数都小于n,其中n=10^7。如果在输入文件中有任何整数重复出现就是致命错误。没有其他数据和该整数相关联。<br />    输出:按升序排列的输入整数的

2010-08-18 17:17:00 773

数学之美数学之美数学之美

数学之美数学之美数学之美数学之美数学之美数学之美

2011-02-26

IT学生解惑真经 IT学生解惑真经

IT学生解惑真经IT学生解惑真经IT学生解惑真经

2011-02-26

C深度剖析C深度剖析

C深度剖析C深度剖析C深度剖析C深度剖析C深度剖析

2011-02-26

《算法导论》习题解答.rar

《算法导论》习题解答.rar《算法导论》习题解答.rar

2011-02-26

495个C语言问题 C经典参考

495个C语言问题 C经典参考 495个C语言问题 C经典参考

2011-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除