MapReduce源码分析
qq_28027543
这个作者很懒,什么都没留下…
展开
-
TopK问题--MapReduce处理
原始数据分为8个block存储,847 MB数据格式:每个数字是[0,1亿)区域内的随机数(存储的byte长度也不一样,比如:随机数1只用一个byte存储字符1 ; 随机数200 则需要3个字符存储),之间用空格分开。InputFormat设置根据数据格式设计分割方式:根据cpu最多并行12线程,应该分割为12个split,开启12个mapTask同时读数据。每条record之...原创 2019-12-23 21:59:06 · 194 阅读 · 0 评论 -
MapReduce的5个流程之InputFormat
MapReduce的5个流程[input阶段]获取输入数据进行分片作为map的输入[map阶段]过程对某种输入格式的一条记录解析成一条或多条记录[shffle阶段]对中间数据的控制,作为reduce的输入[reduce阶段]对相同key的数据进行合并[output阶段]按照格式输出到指定目录抽象类InputFormat整个类结构:InputFormat作为一个抽象类,定义...原创 2019-12-23 17:49:02 · 364 阅读 · 0 评论