一、 Spark安装
环境要求
- Spark可以在Windows和类Unix系统(例如Linux, Mac OS)上运行。
- 运行Spark需要系统中先安装Java环境,并设置JAVA_HOME环境变量为Java的安装目录。
- Spark运行在Java8+,Python2.7+/3.4+ 和R 3.1+。 对于Scala API, Spark 2.2.0 使用Scala 2.11。
安装
下载Spark:http://spark.apache.org/downloads.html 直接下载编译好的Spark包即可,如果需要源码编译,下载源码包, 交易教程请戳:http://spark.apache.org/docs/latest/building-spark.html 将下载的压缩包spark-2.2.0-bin-hadoop2.7.tgz解压到某个目录下即可。
二、运行示例和Shell
Spark自带了一些示例程序,包括Scala、Java、Python和R语言的相关示例代码在examples/src/main目录下。如果要运行Scala或Java示例程序,直接在Spark安装根目录下下运行命令 bin/run-exmple <class> [params]即可。例如:
也可以通过Scala Shell运行Spark交互shell,如下: