hadoop mr的一些文件归属（包括临时文件的存储情况）

最新推荐文章于 2024-06-13 21:32:44 发布

bxyz1203

最新推荐文章于 2024-06-13 21:32:44 发布

阅读量1.1w

点赞数 1

分类专栏： hadoop0.19.1 文章标签：存储 hadoop output 磁盘任务化工

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bxyz1203/article/details/8057810

版权

本文详细探讨了Hadoop MR计算流程中涉及的各种文件存储位置，包括job.xml、job.jar、临时数据、日志文件以及最终输出。在本地{mapred.local.dir}中存储job.xml和任务数据，map的临时数据由SpillThread生成，reduce数据存储在output/_temporary，日志文件主要保存在{output}/_logs/history和本地磁盘。完成后的job仅保留{output}目录下的结果文件和JobHistory。

摘要由CSDN通过智能技术生成

一、概述

一个计算的流程如下图所示，对于一个简单的wordcount的计算中，总共要经历哪些文件呢？本文将详细探讨这个话题。文章可能会重新编辑，如果想浏览最新内容请访问原创博客：http://blog.csdn.net/bxyz1203/article/details/8057810。由于作者个人知识面有限，如果描述有错误或者遗留之处敬请谅解，再欢迎指出，我们共同进步。

本文分析的是0.19.1版本。其实无论是哪个版本（除了最新的2）都差不多。

mr各种文件存储的大致目录：

二、文件存储分析

1、Client提交任务之前对此任务的一些初始化工作。
一般会在{mapred.system.dir}目录中写入job.jar、job.xml、job.split文件。
2、JobTracker初始化job的时候会从hdfs中拷贝job.xml、job.split文件，为了存储JobHistory日志及获得数据分片等一些数据。

在本地{m

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。