一、Spark集群搭建
版本:spark-2.1.0-bin-hadoop2.6
安装:将spark解压到各节点的/opt目录下
配置:(各节点配置相同)
1. 进入spark配置文件夹:
cd /opt/spark/conf
2. 将slaves.template修改为slaves:
mv slaves.template slaves
3. 修改slaves文件,添加spark集群各个节点的hostname:
4. 将spark-env.sh.template修改为spark-env.sh:
mv spark-env.sh.template spark-env.sh
5. 在spark-env.sh中添加:
export SPARK_MASTER_HOST=hdfs1(这里的hdfs1为spark的master主机)
(如果是HADOOP集群,加入以下配置)
export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf.cloudera.yarn/
二、开发环境搭建
Windows环境下:
1.下载spark-2.1.0-bin-hadoop2.6并解压
2.下载hadoop-2.6.0的windows版本(注意普通版本无法使用)并解压
3.配置环境变量:HADOOP_HOME指向hadoop路径
4.配置环境变量SPARK_HOME指向spark路径
5.maven依赖使用如下版本
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>2.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-yarn_2.11</artifactId>
<version>2.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>