先总结MapReduce的编程规范
Map阶段2个步骤
- 设置InputFormat类,将数据切分为Key-Value(K1与V1)对,输入到第二布
- 自定义Map逻辑,将第一步的结果转变为另外的Key-Value(K2与V2)对,输出结果
Shuffle阶段4个步骤
- 对输出的Key-Value进行分区
- 对不同分区的数据按照相同的key排序
- (可选)对分组过的数据初步规约,降低数据的网络拷贝
- 对数据进行分组,相同的Key的Value放入一个集合中
Reduce阶段的2个步骤
- 对多个Map任务的结果进行排序以及合并(K2与V2),编写Reduce函数实现自己的逻辑,对输入的Key-Value进行处理,转为新的Key-Value(K3与V3)输出
- 设置OutputFormat处理并保存Reduce输出的Key-Value数据
逻辑代码:
Main类:
package com.fyg.bigdata;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.VIntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.yarn.webapp.hamlet.Hamlet;
import java.io.IOException;
public class WordCountMain {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 设置map和reduce
// 类名.class就是返回了一个对象实例,每个类在JVM中都存在一个实例与之对应,用于存储类的初始化信息
job.setMapperClass(WordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
job.setJarByClass(WordCountMain.class);
job.setJobName("Word Count test");
// 设置map的输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置reduce的输出格式
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置格式化类
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
TextInputFormat.setInputPaths(job, new Path("file:///E:/data/mapreduce/input"));
// outputfile 不能存在!因为不允许重写一个已知的文件
TextOutputFormat.setOutputPath(job, new Path("file:///E:/data/mapreduce/output"));
// 提交作业
job.waitForCompletion(true);
}
}
Mapper类:
package com.fyg.bigdata;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.io.LongWritable;
import java.io.IOException;
//LongWritable就是long型,同理IntWritable就是int
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
@Override
// 每读一行就会调用一次map方法
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String[] words=value.toString().split(",");
for(String word:words)
{
context.write(new Text(word),new IntWritable(1));
}
}
}
Reduce类:
package com.fyg.bigdata;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;
import java.awt.*;
import java.io.IOException;
public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
int sum=0;
// sum is numbers of occurrences of words
for(IntWritable i:values)
{
sum+=i.get();
}
context.write(key,new IntWritable(sum));
}
}
细节梳理:
每一个split分配一个mapTask并行实例处理
由FileInputFormat实现类的getSplits()方法实现切片
默认切片大小就是Block块大小(默认块大小128M,是因为使用的是2.X版本的hadoop,1.X版本则是64m)
在FileInputFormat中,计算切片大小的逻辑代码为: Math.max(minSize, Math.min(maxSize, blockSize));
minsize:默认值:1 配置参数: mapreduce.input.fileinputformat.split.minsize maxsize:默认值:Long.MAXValue 配置参数:mapreduce.input.fileinputformat.split.maxsize
关于job.setJarclass,一个解释的比较好的coder的文章我留在这儿供参考:
我在此也补充一下hadoop权威指南上的介绍:
job对象指定作业执行规范。我们可以把它来控制整个作业的运行。我们在hadoop集群上运行这个作业时,要把代码打包成一个JAR文件(hadoop在集群上会发布这个文件)。不必明确指定JAR文件的名称,在job对象的setJarByClass()方法中传递一个类即可,hadoop会利用这个类来查找包含它jar文件,进而找到相关的jar文件。