![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 78
felinewong
这个作者很懒,什么都没留下…
展开
-
海量数据处理问题之双层桶划分
双层桶划分什么是双层桶事实上,与其说双层桶划分是一种数据结构,不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候,我们可以将其分成一个个小的单元,然后根据一定的策略来处理这些小单元,从而达到目的。适用范围 第k大,中位数,不重复或重复的数字基本原理及要点 因为元素范围很大,不能利用直接寻址表,所以通过多次划分,逐步确定范围,然后最后转载 2017-02-27 21:08:31 · 507 阅读 · 0 评论 -
海量数据处理问题之Bit-Map详解
什么是Bit-map 所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。 如果说了这么多还没明白什么是Bit-map,那么我们来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这里假设这些元素没有重复)。那么我们就可以采用Bit-ma转载 2017-02-27 21:10:10 · 269 阅读 · 0 评论 -
海量数据处理问题之面试题
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为,这里漏写个了a1)中。这样每个小文件的大转载 2017-02-27 21:15:15 · 205 阅读 · 0 评论