构建一个Mapreduce作业

本文详细介绍了如何构建和运行一个MapReduce作业,包括下载数据、启动Hadoop集群、将数据复制到HDFS、运行WordCount示例作业、调整Reducer数量、查看输出结果以及从HDFS下载数据到本地。
摘要由CSDN通过智能技术生成

一、下载数据

这些数据即将作为mapreduce作业的输入

$ wget http://www.gutenberg.org/cache/epub/4300/pg4300.txt
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/cache/epub/20417/pg20417.txt

并将下载到的三个.txt文件全放在本地的一个gutenberg文件夹下,假设放在/usr/local/hadoop/tmp/gutenberg下


二、启动hadoop集群

如果之前已经停止了hadoop,那么此时需要重新启动

/usr/local/hadoop/$ start-all.sh

三、将本地数据复制到HDFS

在我们运行mapreduce作业之前,需要先把输入数据复制到hadoop的文件系统HDFS

1.在hdfs中创建目录/user/hduser,-p代表创建路径中的各级父目录

/usr/local/hadoop$ hdfs dfs -mkdir -p /user/hduser/

2.将本地的gutenberg文件夹下的所有内容复制到HDFS中

/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal ./tmp/gutenberg /user/hduser/

可以看到/user/hduser/下多了一个文件夹gutenberg

/usr/local/hadoop$ bin/hadoop fs -ls /user/hduser

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值