一:背景
有时候,我们不想再程序中显示的指定输入路径和输出路径,因为那样不太灵活,不利于扩展,Hadoop提供了将程序打成jar包发到集群上通过命令行参数指定输入输出路径的方式运行程序。
二:技术实现
(1):主类继承Configured类还要实现Tool接口。
(2):将我们以前写的设置各种参数的代码写在run()方法中(实现接口必须要实现run方法)。
(3):还有一句很关键的代码就是:job.setJarByClass(XXX.class);即以Jar包的形式运行。
我们以单词计数为例,有以下两种方法!!!
方法一:继承Configured类和实现Tool接口
public class WordCount extends Configured implements Tool {
// 定义输入路径
private String INPUT_PATH = "";
// 定义输出路径
private String OUT_PATH = "";
public static void main(String[] args) {
try {
ToolRunner.run(new WordCount(), args);
} catch (Exception e) {
e.printStackTrace();
}
}
static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context) throws IOException,
InterruptedException {
// 注:value是hadoop的Text类型,调用toString可以转换成java的类型。
String[] splited = value.toString().split("\t");
// 迭代
for (String word : splited) {
context.write(new Text(word), new LongWritable(1L));
}
}
}
static class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable> {
&#