MapReduce
撸起袖子干就完了
Kafka_Hive_Flink
种一颗树最好的时间是十年前,其次是现在
展开
-
【MapReduce】浅谈MR Shuffle流程
MapReduce shuffle:Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。在shuffle之前,MapReduce通过InputFormat接口中的getSplit()方法,对要当前要处理的HDFS块数据进行逻辑上的分片(split)操作,进而确定MapTask的个数// 分片不会超过blockSize的大小,取goalSize和minSize的最大值finalSplitSize=max(minSize,min(goalSize,blockSize))原创 2020-07-27 20:33:05 · 398 阅读 · 0 评论 -
【Hadoop】Hadoop 3.x 和2.x主要区别总结
⌘ 最低Java版本从7升级到8⌘ 引入纠删码(Erasure Coding),未来趋势主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。但是,对于I/O活动相对较少冷数据集,在正常操作期间很少访问其他块副本,但仍然会消耗与第一个副本相同的资源量。纠删码能勾在不到50%数据冗余的情况下提供和3副本相同的容错能力,因此,冷数据可以使用纠删码作为副本机制的改进是自然而然,也是未来的趋势.本来默认是128M为一个块,纠删码可以将其打散成1原创 2020-05-29 22:08:55 · 1938 阅读 · 0 评论 -
【MapReduce】MR执行过程中的关键源码学习总结
注意:通过WordCount程序为例进行测试是在本地模式进行的,所以N个MapTask 和 N个 ReduceTask没有并行的效果。如果在集群上,N个 MapTask 和 N 个ReduceTask 是并行运行.一、 Job提交的流程方法层级:1 > 1) > (1) > <1> > ① > [1] > {1}1. job.wai...原创 2020-04-18 14:03:37 · 183 阅读 · 0 评论