Spark 是专为大规模数据处理而设计的快速通用的计算引擎。拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。由于spark使用依赖scala.所以一起安装。
1.解压文件
tar -zxvf /opt/spark-1.6.0-cdh5.8.0.tar.gz
tar -zxvf /opt/scala-2.10.4.tgz
2.配置环境变量
# vim /etc/profile
在文件最后添加:
export SPARK_HOME=/opt/spark-1.6.0-cdh5.8.0
export SCALA_HOME=/opt/scala-2.10.4
export PATH=.:$JAVA_HOME/bin:$SACLA_HOME/bin:$PATH //将scala路径添加进环境变量
3. 配置spark-env.sh
Spark-env.sh文件中配置了spark运行时的一些环境、依赖项以及master和slaver的资源配置。
cp conf/spark-env.sh.template conf/spark-env.sh //将spark-env.sh.template复制一份为spark-env.sh
配置如下:
HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.8.0/etc/hadoop
SPARK_LOCAL_IP=slave1 //这是指spark当前运行机器
SPARK_MASTER_IP=master //主节点ip
SPARK_CLASSPATH=$CLASSPATH:`find /opt/hadoop-2.6.0-cdh5.8.0 -name *.jar|tr '\n' ':'`
SPARK_LOCAL_DIRS=/opt/spark/
HADOOP_HOME=/opt/hadoop-2.6.0-cdh5
4.配置/opt/spark-1.6.0-cdh5.8.0/conf/slaves
master
slave1
slave2
5.拷贝整个目录到slave1,slave2
scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave1:/opt/
scp -r /opt/spark-1.6.0-cdh5.8.0 hadoop@slave2:/opt/
在slave1,slave2上修改spark-env.sh中的
SPARK_LOCAL_IP为当前机器名
5.验证