首先需要安装JDK7+
Spark是Scala写的,如果是使用Python API 还得要安装Python2.6+ 或者Python3.4+
Spark需和Scala版本对应 假如版本不一致 后期可能会很麻烦
Spark 1.6.2 - Scala 2.10 Spark 2.0.0 - Scala 2.11
在Spark官网上下载自己要的Spark版本 http://spark.apache.org/downloads.html
下载之后解压缩: tar -xf spark-*-bin-hadoop.tgz(对应着你下载的版本号)
增加环境变量 更新profile文件: /etc/profile 在后面加入:
SPARK_HOME=/home/vincent/Downloads/spark
PATH=
PATH:
P
A
T
H
:
{SPARK_HOME}/bin
进入spark安装位置, 然后进入spark中的 bin 文件夹
./spark-shell 运行scala
./pyspark 运行python
运行命令之后 会出现图形Spark 表示启动成功
调整日志级别控制输出的信息量
在conf目录下将log4j.properties.template 复制为 log4j.properties, 然后找到 log4j.rootCategory = INFO, console
将INFO改为WARN
之后再启动就没有那么多日志打印了