MapReduce入门之wordcount
先下流行的大数据,主要需要两个处理方法。1、海量数据的存储,2、海量数据的计算。
其中,使用HDFS完成海量数据的分布式储存,而海量数据的计算交给MapReduce来进行。
MapReduce简介
1、定义
MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠的容错式并行处理TB级的数据集。
2、特点
1、实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量的PC机器上运行。
2、当计算资源不足时,可以通过简单的增加机器就可以扩展它的计算能力。
3、它的高容错性使他可以部署在廉价的PC机器上。hadoop内部可以自行完成,失败节点任务转移到另一个节点运行,完全不需要人工的参与。
3、不适合使用MapReduce的计算
1、实时计算——无法快速返回结果
2、流失计算——MapReduce的输入是静态的,数据源必须是静态的。
3、DAG(有向图)计算——一种反馈机制
4、架构
MapReduce采用Master/Slave的架构。Map输入整个算法的输入。Reduce输出整个算法的最终输出结果。
四个组成部分包括:Client、JobTracker、TaskTracker、Task
5、执行流程
Mapper的数量是不可以设置的,但是Reduce的数量是自行设置的。
InputFormat->mapper->combin->partition->reducer->OutputFormat
wordcount—-划分文档中的单词数量
准备工作:
在本地建立一个文件。写入重复内容。如:Hello Mapreduce,Hello Study,Hello Deniece。
然后上传到hdfs上(hadoop fs -put Mapreduce /MapReduce)
新建三个类:wordcount类、MyMapper类、MyReduce类。分别编写如下代码来进行单词数量统计。
第一个wordcount类:
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class myMapReduce {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJarByClass(myMapReduce.class);
//文件输入 /MapReduce 必须存在
FileInputFormat.addInputPath(job, new Path("/MapReduce"));
//文件输出 /Reduce 不存在 执行结束后,会出现的是log——xtt 目录
//目录下文件存有输出结果
FileOutputFormat.setOutputPath(job, new Path("/log_xtt"));
//设置Map Reduce 两个类
job.setMapperClass(MyMapper.class);
job.setReducerClass(MyReducer.class);
//设置Key为Text(String)类型
job.setOutputKeyClass(Text.class);
//设置Value为IntWritable(int)类型
job.setOutputValueClass(IntWritable.class);
//执行
job.waitForCompletion(true);
}
}
第二个MyMapper类:
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class MyMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
protected void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException
{
//value值为:文档里面每一行的字符串
//Text value 是一整行的数据Map源码会自动循环调用此函数只到把每一行都读入进来。
String[] str = value.toString().split(" ");
for(String ss:str)
{
context.write(new Text(ss),new IntWritable(1));
//不知道把结果发给谁,用上下文
}
}
}
第三个MyReduce类:
import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MyReduce extends Reducer<Text,IntWritable,Text,IntWritable>{
protected void reduce(Text key,Iterable<IntWritable> values,Context context) {
int sum = 0;
//转换成常用的迭代器,迭代相加。
Iterator<IntWritable> it = values.iterator();
while(it.hasNext())
{
sum = sum+it.next().get();
}
try {
context.write(key, new IntWritable(sum));
} catch (IOException | InterruptedException e) {
e.printStackTrace();
}
}
}
此处的写法,可简单统计一个文档中相同的单词个数。