- 博客(4)
- 资源 (9)
- 收藏
- 关注
原创 MapReduce Shuffle过程分析
Hadoop的核心就是HDFS和MapReduce,而MapReduce的核心又是Shuffle,Shuffle的主要工作是从Map结束到Reduce开始之间的过程。如图: 可以看到,shuffle阶段又可以分为Map端输出时的shuffle和Reduce端输入的shuffle。 一、Map端输出的shuffle 整个流程我分了四步。简单些可以这样说,每个map task都有
2017-06-12 15:17:12 360
原创 C++实现BitMap数据结构
分治,分布式。BitMap(位图)及其升级版bloom filter是处理海量数据常用的方法,这里先介绍BitMap概念及其c++实现。 一 BitMap位图 该数据结构描述了一个有限定义域内的稠密集合,其中的每一个元素最多出现一次并且没有其他任何数据与该元素相关联。即使这些条件没有完全满足(例如,存在重复元素或额外的数据),也可以用有限定义域内的键作为一个表项更复杂的表格索引。 所谓的
2017-06-02 23:16:07 12079 4
clang_library
2015-11-28
tags_vim_master
2015-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人