ReadMe
Hadoop的MapReduce(简称MR),是一个基于HDFS的大规模数据集分布式并行计算框架。
概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
(以上内容摘自百度百科: https://baike.baidu.com/item/MapReduce/133425?fr=aladdin )
更多信息请移步官方网站: https://hadoop.apache.org/
代码所需依赖通过Maven管理的方式已完成。具体使用方式请移步我的文章
《idea使用maven管理mr依赖》(我这么可爱,你不点一下吗?)
Code(代码)部分
Mapper类
package org.apache.hadoop.demo.mr;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// 首先获取一行数据
String line = value.toString();
// 将行内的单词进行切分,使用一个数组进行保存,切分数据时根据源数据得知可以使用空格的方式切分。
String[] arr = line.split(" ");
for (String str : arr) {
context.write(new Text(str), new LongWritable(1));
}
}
}
Reduce类
package org.apache.hadoop.demo.mr;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
public void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
// 定义变量记录单词出现的次数
long sum = 0;
for (LongWritable value : values) {
// 记录总次数
sum += value.get();
}
// 输出数据,key就是单词,value就是在map阶段这个单词出现的总次数
context.write(key, new LongWritable(sum));
}
}
Driver类:
package org.apache.hadoop.demo.mr;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class WordCountDriver {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
// 获取当前的默认配置
Configuration conf = new Configuration();
// 获取代表当前mr作业的job对象
Job job = Job.getInstance(conf);
// 指定一下当前程序的入口类
job.setJarByClass(WordCountDriver.class);
//指定当前Mapper任务的类
job.setMapperClass(WordCountMapper.class);
// 指定当前Reducer任务的类
job.setReducerClass(WordCountReducer.class);
/*
设置Mapper的结果类型
*/
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class);
/*
设置Reducer的结果类型
*/
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
/**
* 设置路径,包括了输入文件和输出路径
* 下面代码中的hadoop01是因为在系统的host文件做了主机名与ip地址的映射,如果没有做映射可将其替换成IP地址。
*/
FileInputFormat.setInputPaths(job, new Path("hdfs://hadoop01:9000/mapreduce/wc.txt"));
// 输出路径的文件夹不能存在,若存在,则报错。
FileOutputFormat.setOutputPath(job, new Path("hdfs://hadoop01:9000/result"));
job.waitForCompletion(true);
}
}
代码写完之后,要在HDFS(Hadoop分布式文件系统)创建对应的目录,并上传文件。
注意,代码注释里提到了,FileOutputFormat.setOutpuPath所设置的路径不能存在,否则任务执行的时候会直接报错。
文档结束,如有错误,欢迎指导。