在离线分析任务中,为了在hadoop集群上分布式运行我们的程序,需要在eclipse环境中将需要运行的程序打好jar包,丢到服务器端,用hadoop jar xxx.jar <arg0> <arg1> ...... 命令来执行。
在eclipse打包有两种打包形式:普通jar和runable jar
若使用runable jar打包,则是将所有与程序相关的依赖jar包全部打包进目标的jar中,若程序依赖的jar很多,打出的jar包会很大,不利于工程开发。
建议采用如下方法:
选择打包成JAR File,打开如下对话框,在红框处选择需要打进包的源java文件。
然后在select the export destination 处设置好jar包的保存路径,点击next>>next
打开如下的对话框,并在红框处选择jar包运行的主类:
点击Finish,完成打包,并将jar包丢到服务器上指定的目录下。
在Linux环境下,进入jar包所在目录(或在任意目录使用绝对路径访问jar),使用hadoop jar XXX.jar 方式运行jar包(此时,请确保hadoop已经被加载到环境变量中)
运行时会出现如下错误信息:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at Test.HtableCreate.main(HtableCreate.java:21)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606) at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguration
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
at java.lang.ClassLoader.loadClass(ClassLoader.java:358) ... 7 more
为什么会不识别HBaseConfiguration类呢,因为使用hadoop jar执行程序时,系统加载的是hadoop classpath中的jar包,而hbase并没有出现在hadoop classpath中。
wangyanyan@bigdata-cnki:~$ hadoop classpath
/usr/local/hadoop/hadoop-2.7.3/etc/hadoop:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/common/lib/*:/
usr/local/hadoop/hadoop-2.7.3/share/hadoop/common/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/hdfs
:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/hdfs/lib/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/
hdfs/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/yarn/lib/*:/usr/local/hadoop/hadoop-2.7.3/share/h
adoop/yarn/*:/usr/local/hadoop/hadoop-2.7.3/share/hadoop/mapreduce/lib/*:/usr/local/hadoop/hadoop-2.
7.3/share/hadoop/mapreduce/*:/usr/local/hadoop/hadoop-2.7.3/contrib/capacity-scheduler/*.jar
wangyanyan@bigdata-cnki:~$
如果临时使用环境变量可如下设置:
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-examples-VERSION.jar
如果永久生效可以在hadoop-env.sh中设置HADOOP_CLASSPATH,如下设置:
# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler.
if [ -z $HBASE_HOME ];
then
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}
else
export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}:${HBASE_HOME}/lib'/*'
fi
然后再次执行hadoop jar生效。