Hadoop执行DistributedGrep

(1)拷入数据

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -put conf inputDir1


(2)启动执行
[hadoop@node14 hadoop-0.21.0]$ hadoop jar hadoop-mapred-examples-0.21.0.jar grep inputDir1 outputDir1 'dfs[a-z.]+'


(3)监控过程



(4)查看结果

[hadoop@node14 hadoop-0.21.0]$ hadoop fs -ls outputDir1
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -cat outputDir1/part-r-00000
3       dfs.class
2       dfs.period
1       dfsmetrics.log
1       dfsadmin
1       dfs.servers
1       dfs.replication
1       dfs.name.dir
1       dfs.file

1       dfs.data.dir


(5)查看输入输出文件大小
[hadoop@node14 hadoop-0.21.0]$ hadoop fs -du
25250  hdfs://node14:9000/user/hadoop/inputDir1
126    hdfs://node14:9000/user/hadoop/outputDir1
说明:
读输入日志或者web端监控作业执行,发现该次作业提交实质上执行了两个MapReduce Jobs.
(1) job_201204271504_0007  grep-search   完成grep
(2) job_201204271504_0008  grep-sort  对前一个作业的结果实现sort
前一个作业的输出作为后一个作业输入?


(6) job_201204271504_0007日志分析
共16个Map Task  (因为conf包含了16个文件,每个文件一个task):
Task00、Task01在Node15上执行(04,05 / 08,09 / 12,13)
Task02、Task03在Node16上执行(06,07 / 10,11 / 14,15)
Map input records 721 
Map output records 12 


Combine input records 12 
Combine output records 9 


Shuffled Maps  16 //参与Shuffled的Map task数目


Reduce input records 0 9 
Reduce output records 0 9 
-------------------------------------------------------------------------------------
1个Reduce Task, 在node15上执行,有四个时间点:

Start Time / Shuffle Finished / Sort Finished / Finish Time



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值