实验-运行wordcount单词计数

最新推荐文章于 2023-03-10 08:44:28 发布

码里安乐窝

最新推荐文章于 2023-03-10 08:44:28 发布

阅读量918

点赞数 1

分类专栏：大数据与云计算

本文链接：https://blog.csdn.net/qq_43078445/article/details/103943149

版权

本文档详细介绍了如何进行Hadoop MapReduce的WordCount实验。首先，创建wordcount工程并打包为.jar文件，然后在HDFS上创建相关目录，输入文件text.txt，最后通过执行Hadoop命令运行wordcount程序，并验证输出结果。

摘要由CSDN通过智能技术生成

一、实验目的

掌握分布式计算–批处理引擎MapReduce（第一部分）（wordcount）

二、实验步骤

1、创建工程wordcount，编写wordcount代码，并打包成可执行的jar包
2、在hdfs里创建wordcount目录，并在其目录下创建输入in目录
3、执行“bin/hadoop jar jar包名工程的包名.主函数名输入文件输出文件”
4、运行wordcount的结果

实验结果

编写代码：

WordMain.java

package wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

/**
 * @author: Gu Yongtao
 * @Description: 
 * @date: 2018年11月6日 下午4:53:59
 * @Filename: WordMain.java
 */

public class WordMain {
   
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
   
		// Configuration类：读取配置文件内容-core-site.xml
		Configuration conf = new Configuration();
		
		// 读取命令行参数，并设置到conf
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
		
		// 添加内容