个人学习过程中总结,如有不同见解望交流。
Driver类的设置有两种方法,一种是直接在Driver类的main方法中写driver,一种是令Driver类extends Configured implements Tool (引入包为import org.apache.hadoop.conf.Configured和import org.apache.hadoop.util.Tool) ,并在重写的 run()方法中写driver,在main中调用run()方法。具体如下:
第一种:
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public static void main(String[] args) throws Exception {
// 得到集群配置参数
Configuration conf = new Configuration();
// 设置到本次的 job 实例中
Job job = Job.getInstance(conf, " WordCount");
// 指定本次执行的主类是 WordCount
job.setJarByClass(WordCount.class);
// 指定 map 类