hadoop mr的一些文件归属(包括临时文件的存储情况)

本文详细探讨了Hadoop MR计算流程中涉及的各种文件存储位置,包括job.xml、job.jar、临时数据、日志文件以及最终输出。在本地{mapred.local.dir}中存储job.xml和任务数据,map的临时数据由SpillThread生成,reduce数据存储在output/_temporary,日志文件主要保存在{output}/_logs/history和本地磁盘。完成后的job仅保留{output}目录下的结果文件和JobHistory。
摘要由CSDN通过智能技术生成

一、概述

一个计算的流程如下图所示,对于一个简单的wordcount的计算中,总共要经历哪些文件呢?本文将详细探讨这个话题。文章可能会重新编辑,如果想浏览最新内容请访问原创博客:http://blog.csdn.net/bxyz1203/article/details/8057810。由于作者个人知识面有限,如果描述有错误或者遗留之处敬请谅解,再欢迎指出,我们共同进步。

本文分析的是0.19.1版本。其实无论是哪个版本(除了最新的2)都差不多。


mr各种文件存储的大致目录:


二、文件存储分析
1、Client提交任务之前对此任务的一些初始化工作。
一般会在{mapred.system.dir}目录中写入job.jar、job.xml、job.split文件。
2、JobTracker初始化job的时候会从hdfs中拷贝job.xml、job.split文件,为了存储JobHistory日志及获得数据分片等一些数据。

在本地{m

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值