hadoop job命令支持通过xml文件的方式提交任务。
命令:
hadoop job -libjars some.jar -submit testjob.xml
some.jar是实现了Mapper、Reducer等的jar包,testjob.xml是作业配置文件。
jobtemplate.xml是作业配置文件不经常变动的部分,someapp.xml是本作业的配置部分。
someapp.xml内容:
<property><name>mapred.jar</name><value>some.jar</value></property>
<property><name>mapred.job.name</name><value>somejob</value></property>
<property><name>mapred.mapoutput.key.class</name><value>org.apache.hadoop.io.Text</value></property>
<property><name>mapred.mapoutput.value.class</name><value>org.apache.hadoop.io.Text</value></property>
<property><name>mapred.output.key.class</name><value>org.apache.hadoop.io.Text</value></property>
<property><name>mapred.output.value.class</name><value>org.apache.hadoop.io.NullWritable</value></property>
<property><name>mapreduce.map.class</name><value>com.some.SomeMR$MapperImpl</value></property>
<property><name>mapreduce.reduce.class</name><value>com.some.SomeMR$ReducerImpl</value></property>
<property><name>mapred.output.value.groupfn.class</name><value>com.some.base.MRGroup</value></property>
<property><name>mapreduce.partitioner.class</name><value>com.some.base.MRPartion</value></property>
<property><name>mapred.reduce.tasks</name><value>6</value></property>
<property><name>mapred.input.dir</name><value>hdfs:/testinput</value></property>
<property><name>mapred.output.dir</name><value>hdfs:/testoutput</value></property>
jobtemplate.xml内容过多,都是hadoop的通用配置,在hadoop几个配置文件中应该能找得到(可以从提交的任务中提取公共部分)。
jobtemplate.xml+someapp.xml => testjob.xml