一、实验目的
掌握分布式计算–批处理引擎MapReduce(第一部分)(wordcount)
二、实验步骤
1、创建工程wordcount,编写wordcount代码,并打包成可执行的jar包
2、在hdfs里创建wordcount目录,并在其目录下创建输入in目录
3、执行“bin/hadoop jar jar包名 工程的包名.主函数名 输入文件 输出文件”
4、运行wordcount的结果
实验结果
编写代码:
WordMain.java
package wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
/**
* @author: Gu Yongtao
* @Description:
* @date: 2018年11月6日 下午4:53:59
* @Filename: WordMain.java
*/
public class WordMain {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// Configuration类:读取配置文件内容-core-site.xml
Configuration conf = new Configuration();
// 读取命令行参数,并设置到conf
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
// 添加内容