(1)拷入数据
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.replication
1 dfs.name.dir
1 dfs.file
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250 hdfs://node14:9000/user/hadoop/inputDir1
126 hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007 grep-search 完成grep
(2) job_201204271504_0008 grep-sort 对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?
(6) job_201204271504_0007日志分析
共16个Map Task (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721
Map output records 12
Combine input records 12
Combine output records 9
Shuffled Maps 16 //参与Shuffled的Map task数目
Reduce input records 0 9
Reduce output records 0 9
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'
(3)监控过程
(4)查看结果
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3 dfs.class
2 dfs.period
1 dfsmetrics.log
1 dfsadmin
1 dfs.servers
1 dfs.replication
1 dfs.name.dir
1 dfs.file
1 dfs.data.dir
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250 hdfs://node14:9000/user/hadoop/inputDir1
126 hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007 grep-search 完成grep
(2) job_201204271504_0008 grep-sort 对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?
(6) job_201204271504_0007日志分析
共16个Map Task (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721
Map output records 12
Combine input records 12
Combine output records 9
Shuffled Maps 16 //参与Shuffled的Map task数目
Reduce input records 0 9
Reduce output records 0 9
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:
Start Time / Shuffle Finished / Sort Finished / Finish Time