本文使用Windows8.1平台。
下载Spark1.4.0带hadoop2.2.0支持的prebuild版本和源文件。安装到c:\spark-1.4.0(安装路径可以自己决定)。在c:\spark-1.4.0\bin目录下运行spark-shell命令,正常进入scala>状态,安装就好了。解压下载的source到c:\spark-1.4.0\src。在src目录下产生如下目录:assembly, bagel, …, repl ...等。
研究Spark-Shell命令:
在Spark中最主要的命令是spark-shell。启动后,用户可以在scala>状态输入自己的命令,执行scala语句等。哪spark-shell命令又是运行的什么呢?我们都知道Spark,Scala最后都会编译成Java的class,通过查看spark-shell命令,在spark-class2.cmd中,我们发现了Java命令调用:
"%RUNNER%"-cp %LAUNCH_CLASSPATH% org.apache.spark.launcher.Main %*> %LAUNCHER_OUTPUT%
于是在脚本中我们打印出LAUNCH_CLASSPATH和找到相应的Main文件。
Classpath: