早上没事,写了个自动提交hadoop作业的脚本,其实就是将编译java文件、打包、运行hadoop作业的步骤放在一个脚本里而已。代码如下:
#! /bin/bash
# compile a java source file, then package into a jar, then run job on hadoop
# $1 java source filename
# $2 class to run
# other param: param passed to class
javaFilename=$1
className=$2
javaPath=`pwd`'/'"$javaFilename"
cd $HADOOP_HOME
mkdir studio
cd studio
mkdir src
mkdir classes
cp $javaPath src/
javaPath=src/"$javaFilename"
javac -classpath ../hadoop-0.20.2-core.jar -d classes $javaPath
jarName="$className"'.jar'
jar -cf $jarName -C classes/ .
shift 2
hadoop jar $jarName $className $*
cd ..
rm -r studio
局限性:
1. job只能包含一个java文件;
2. 很多地方写的很死,不过只是方便自己工作的脚本,也就没考虑可扩展性。