Hadoop作业提交分析(一)

 

 
 
bin / hadoop jar xxx . jar mainclass args
……

  这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后 再用上面的命令提交到Hadoop Cluster上去运行,在开发阶段那是极其繁琐的。程序员是“最懒”的,既然麻烦肯定是要想些法子减少无谓的键盘敲击,顺带延长键盘寿命。比如有的人就 写了些Shell脚本来自动编译、打包,然后提交到Hadoop。但还是稍显麻烦,目前比较方便的方法就是用Hadoop eclipse plugin,可以浏览管理HDFS,自动创建MR程序的模板文件,最爽的就是直接Run on hadoop了,但版本有点跟不上Hadoop的主版本了,目前的MR模板还是0.19的。还有一款叫Hadoop Studio的软件,看上去貌似是蛮强大,但是没试过,这里不做评论。那么它们是怎么做到不用上面那个命令来提交作业的呢?不知道?没关系,开源的嘛,不 懂得就直接看源码分析,这就是开源软件的最大利处。

       我们首先从bin/hadoop这个Shell脚本开始分析,看这个脚本内部到底做了什么,如何来提交Hadoop作业的。

       因为是Java程序,这个脚本最终都是要调用Java来运行的,所以这个脚本最重要的就是添加一些前置参数,如CLASSPATH等。所以,我们直接跳到 这个脚本的最后一行,看它到底添加了那些参数,然后再逐个分析(本文忽略了脚本中配置环境参数载入、Java查找、cygwin处理等的分析)。

  
  
# run it
exec
" $JAVA " $ JAVA_HEAP_MAX $ HADOOP_OPTS -classpath " $CLASSPATH " $ CLASS " $@ "

  从上面这行命令我们可以看到这个脚本最终添加了如下几个重要参数:JAVA_HEAP_MAX、HADOOP_OPTS、CLASSPATH、CLASS。下面我们来一个个的分析(本文基于Cloudera Hadoop 0.20.1+152分析)。

  首先是JAVA_HEAP_MAX,这个就比较简单了,主要涉及代码如下:

   
   
JAVA_HEAP_MAX = -Xmx1000m
# check envvars which might override default args
if [ " $HADOOP_HEAPSIZE " ! = "" ] ; then
# echo " run with heapsize $HADOOP_HEAPSIZE "
JAVA_HEAP_MAX
= " -Xmx "" $HADOOP_HEAPSIZE "" m "
# echo $ JAVA_HEAP_MAX
fi

  首先赋予默认值-Xmx1000m,然后检查hadoop-env.sh中是否设置并导出了HADOOP_HEAPSIZE,如果有的话,就使用该值覆盖,得到最后的JAVA_HEAP_MAX。

  接着是分析CLASSPATH,这是这个脚本的重点之一。这部分主要就是添加了相应依赖库和配置文件到CLASSPATH。

   
   
# 首先用Hadoop的配置文件目录初始化CLASSPATH
CLASSPATH
= " ${HADOOP_CONF_DIR} "
……
# 下面是针对于Hadoop发行版,添加Hadoop核心Jar包和webapps到CLASSPATH
if [ -d " $HADOOP_HOME/webapps " ] ; then
CLASSPATH
=$ {CLASSPATH}: $ HADOOP_HOME
fi
for f in $ HADOOP_HOME / hadoop-*-core . jar ; do
CLASSPATH
=$ {CLASSPATH}: $ f ;
done
# 添加libs里的Jar包
for f in $ HADOOP_HOME / lib / * . jar ; do
CLASSPATH
=$ {CLASSPATH}: $ f ;
Done
for f in $ HADOOP_HOME / lib / jsp- 2.1 / * . jar ; do
CLASSPATH
=$ {CLASSPATH}: $ f ;
done
# 下面的TOOL_PATH只在命令为“archive”时才添加到CLASSPATH
for f in $ HADOOP_HOME / hadoop-*-tools . jar ; do
TOOL_PATH
=$ {TOOL_PATH}: $ f ;
done
for f in $ HADOOP_HOME / build / hadoop-*-tools . jar ; do
TOOL_PATH
=$ {TOOL_PATH}: $ f ;
done
# 最后添加用户的自定义Hadoop Classpath
if [ " $HADOOP_CLASSPATH " ! = "" ] ; then
CLASSPATH
=$ {CLASSPATH}: $ {HADOOP_CLASSPATH}
fi

  上面只分析一部分,由于代码比较长,针对开发者部分的CLASSPATH添加没有列出来。

  下面是这个脚本的重点、实体之处:CLASS分析。Shell脚本会根据你输入的命令参数来设置CLASS和HADOOP_OPTS,其中CLASS所指向的类才是最终真正执行你的命令的实体。

   
   
# figure out which class to run
if [ " $COMMAND " = " namenode " ] ; then
CLASS
= 'org . apache . hadoop . hdfs . server . namenode . NameNode'
HADOOP_OPTS
= " $HADOOP_OPTS $HADOOP_NAMENODE_OPTS "
……
elif [
" $COMMAND " = " fs " ] ; then
CLASS
= org . apache . hadoop . fs . FsShell
HADOOP_OPTS
= " $HADOOP_OPTS $HADOOP_CLIENT_OPTS "
……
elif [
" $COMMAND " = " jar " ] ; then
CLASS
= org . apache . hadoop . util . RunJar
……
elif [
" $COMMAND " = " archive " ] ; then
CLASS
= org . apache . hadoop . tools . HadoopArchives
CLASSPATH
=$ {CLASSPATH}: $ {TOOL_PATH}
HADOOP_OPTS
= " $HADOOP_OPTS $HADOOP_CLIENT_OPTS "
……
else
CLASS
=$ COMMAND
fi

  这里我们要关心的就是"$COMMAND" = "jar"时对应的类org.apache.hadoop.util.RunJar,这个类等下我们继续分析,这是我们通向最终目标的下一个路口。

  脚本在最后还设置了hadoop.log.dir、hadoop.log.file等HADOOP_OPTS。接着,就利用exec命令带上刚才的参数提交任务了。

  通过对上面的分析,我们知道了,如果想取代这个脚本,那就必须至少把Hadoop依赖的库和配置文件目录给加到CLASSPATH中 (JAVA_HEAP_MAX和HADOOP_OPTS不是必须的),然后调用org.apache.hadoop.util.RunJar类来提交 Jar到Hadoop。

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值