Hadoop
文章平均质量分 92
hxcaifly
这个作者很懒,什么都没留下…
展开
-
【Hadoop】:Hadoop的shuffle(混洗)过程
1. 前言Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方,Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图:这张是官方对Shuffle过程的描述。但我可以肯定的是,单从这张图你基本...原创 2018-11-08 10:32:16 · 1471 阅读 · 0 评论 -
【Hadoop】:MapReduce的工作机制
前言MapReduce是一种分布式计算模型,由Google 2004年提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。这两个函数的形参是key、value对,表示函数的输入信息。特点:离线批处理、分布式计算、高容错。缺点:不支持实时计算、流失计算、DAG(有向无环图)...转载 2019-02-20 20:22:06 · 555 阅读 · 0 评论 -
【Hadoop】:MapReduce性能调优
文章目录1. 前言2. 最简单的调优方式2.1. 设置Combiner2.2. 选择合理的Writable类型2.3. 增加输入文件的副本数3. Map端调优3.1. InputFormat3.2. Buffer3.3. Merge3.4. Combine3.5. 输出中间数据到磁盘3.6. Map端调优总结4. Reduce端调优4.1. ShuffleCopyMerge4.2. Reduce4...转载 2019-02-21 10:35:17 · 828 阅读 · 0 评论 -
【Hadoop】: HDFS的读写流程
文章目录1. 拓扑距离2.副本存放3. HDFS中的block、packet、chunk4. HDFS写流程5. HDFS读流程6. 读写过程,数据完整性如何保持?1. 拓扑距离这里简单讲下hadoop的网络拓扑距离的计算。在大数量的情景中,带宽是稀缺资源,如何充分利用带宽,完美的计算代价开销以及限制因素都太多。hadoop给出了这样的解决方案:计算两个节点间的间距,采用最近距离的节点进...转载 2019-03-06 16:16:56 · 228 阅读 · 0 评论