MapReduce中有多种输出格式,用户可以灵活的定义文件输出的路径、文件名、输出格式等,默认输出文件为part-r-00000。此处讲解如何把part修改为其他内容,方便业务处理.
此方法仅简单修改文件名,详细的重写RecordWriter,对不同类型文件指定不同输出路径和文件名等内容,请参看我的另一篇文章:MapReduce输出格式化详解
修改文件名代码,此处以TextOutputFormat为例:
//建立一个类,继承TextOutputFormat,此class位于org.apache.hadoop.mapreduce.lib.output
private static class TestOut extends TextOutputFormat {
protected static void setOutputName(JobContext job, String name) {
job.getConfiguration().set(BASE_OUTPUT_NAME, name);
}
}
//在main函数中指定输出的格式化类,并设置输出文件名
job.setOutputFormatClass(TestOut.class);
TestOut.setOutputName(job, "waterupking");
自定义setOutputName方法,并在main函数中执行setOutputName方法,指定文件名。
运行之前输出结果如图:
指定自定义格式化类之后,输出结果如图所示,已修改为waterupking开头的文件