大数据之Hadoop
Zhai.
这个作者很懒,什么都没留下…
展开
-
MapReduce中shuffle详细过程
①map的执行结果会被Outercollector组件收集,outercollector会将数据写入环形缓冲区内,进行数据写入的时候根据map输出的key生成一个分区号,默认的是key.hashCode()&Integer_MAX_VALUE%reducetask获取分区号。如果用户自定义分区算法,则按照用户自定义的分区进行返回。②环形缓冲区默认大小为100M,阈值为80%,当达到阈值...转载 2018-11-21 22:00:34 · 400 阅读 · 0 评论 -
hdfs配置文件(hdfs.site.xml)详解
简单的对hdfs(hdfs.site.xml)配置文件做一个简单的说明。<configuration><property><!-- 为namenode集群定义一个services name --><name>dfs.nameservices</name><value>ns1</value><原创 2018-11-17 09:59:41 · 9505 阅读 · 0 评论 -
Mapper中setup与cleanup
setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!cleanup(),此方法被MapReduce框架仅且执行一次,在执行完毕Map任务后,进行相关变量或资源的释放工作。若是将释放资源工作放入方法m...原创 2018-11-22 20:11:47 · 289 阅读 · 0 评论