《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章,第1.9节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.9 在分布式集群环境中运行WordCount程序

Hadoop MapReduce实战手册
本节将描述如何在分布式集群中运行作业。

准备工作
启动Hadoop集群。

操作步骤
现在让我们在分布式的Hadoop环境中运行WordCount示例程序。

  1. 把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置,作为我们前一节中编写的WordCountMapReduce示例的输入数据。
>bin/hadoopdfs -mkdir /data/
>bin/hadoopdfs -mkdir /data/input1
>bin/hadoopdfs -put README.txt /data/input1/README.txt
>bin/hadoopdfs -ls /data/input1

Found 1 items
-rw-r--r-- 1 srinathsupergroup      1366 2012-04-09 08:59 /
data/input1/README.txt
  1. 现在,让我们在HADOOP_HOME目录下运行WordCount示例。
>bin/hadoop jar hadoop-examples-1.0.0.jar wordcount /data/input1/
data/output1

12/04/09 09:04:25 INFO input.FileInputFormat: Total input paths to 
process : 1
12/04/09 09:04:26 INFO mapred.JobClient: Running job:
job_201204090847_0001
12/04/09 09:04:27 INFO mapred.JobClient: map 0% reduce 0%
12/04/09 09:04:42 INFO mapred.JobClient: map 100% reduce 0%
12/04/09 09:04:54 INFO mapred.JobClient: map 100% reduce 100%
12/04/09 09:04:59 INFO mapred.JobClient: Job complete:
job_201204090847_0001
...
  1. 运行下面的命令可列出输出目录的内容,并查看运行结果。
>bin/hadoopdfs -ls /data/output1

Found 3 items
-rw-r--r-- 1 srinathsupergroup   0 2012-04-09 09:04 /
data/output1/_SUCCESS
drwxr-xr-x - srinathsupergroup   0 2012-04-09 09:04 /
data/output1/_logs
-rw-r--r-- 1 srinathsupergroup 1306 2012-04-09 09:04 /
data/output1/part-r-00000

>bin/hadoopdfs -cat /data/output1/*

(BIS), 1
(ECCN) 1
(TSU) 1
(see 1
5D002.C.1, 1
740.13) 1

工作原理
分布式环境的Hadoop作业提交方式与本地安装的Hadoop作业提交方式相似,如1.3节所描述的那样。然而,有两点主要的不同。

首先,Hadoop将作业的输入数据和作业产生的输出数据都存储在HDFS文件系统中。因此,我们使用第1步将输入文件存储在HDFS文件系统中,使用第3步从HDFS文件系统中读取输出文件。

其次,提交作业时,本地Hadoop安装模式将作业放在本地JVM上执行。然而,分布式集群将作业提交给JobTracker,并且使用分布式Hadoop集群中的节点执行该作业。

更多参考
可以通过HDFS监控UI查看WordCount应用程序的结果,如1.6节所描述的那样。同样,也可以像1.10节介绍的那样查看关于WordCount作业的统计信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值