第1步:InputFormat
InputFormat 到hdfs上读取数据
将数据传给Split
第2步:Split
//设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”));
3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class);
4、设置reduce代码 job.setReducerClass(WordCountReduce.class); //设置reduce输出的类型 job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class);
5、设置读输出数据的class job.setOutputFormatClass(TextOutputFormat.class); //设置输出数据的路径 TextOutputFormat.setOutputPath(job,new Path(“C:\ccc.txt”));
6、等待代码执行(返回状态码) return job.waitForCompletion(true)?0:1;
Split将数据进行逻辑切分,
将数据传给RR
第3步:RR
RR:将传入的数据转换成一行一行的数据,输出行首字母偏移量和偏移量对应的数据
将数据传给MAP
第4步:MAP
MAP:根据业务需求实现自定义代码
将数据传给Shuffle的partition