第一个wordcount程序

最新推荐文章于 2023-10-09 15:06:54 发布

your_blue_sky

最新推荐文章于 2023-10-09 15:06:54 发布

阅读量2.5k

点赞数

分类专栏：大数据-Hadoop 文章标签： mapreduce wordcount

本文链接：https://blog.csdn.net/papaaa/article/details/81564582

版权

本文介绍了如何在Hadoop集群上运行第一个MapReduce程序——WordCount。详细讲解了如何准备input和output目录，以及执行hadoop jar命令时的注意事项。文章还探讨了Mapper和Reducer类的泛型参数，以及在Main函数中设置输入输出目录和自定义Mapper、Reducer的重要性。同时提到了高效编写MapReduce程序时可以利用ToolRunner和MNUnit工具。

摘要由CSDN通过智能技术生成

在hadoop集群中，系统自带了许多mapreduce的程序例子，在{%HOME%}/hadoop-mapreduce/hadoop-mapreduce-examples.jar里面有许多小例子，可以在hadoop集群中直接运行命令.
当然运行前需要在HDFS上创建input目录和output目录，
input目录需要一个输入文件，比如/s_tmp/input/tmp.txt
接下来需要创建output目录，注意，output目录必须是不能存在的一个目录，否则，会报错。
然后直接输入下面命令就可以运行自己的第一个mapreduce程序了。

hadoop jar hadoop-mapreduce-examples.jar wordcount /s_tmp/input/tmp.txt /s_tmp/output/

下面是我自己打包生成的mapreduce程序，在用hadoop jar命令执行的时候老是报错，提示找不到类，，，

package cn.sun.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache

最低0.47元/天解锁文章