Spark集群安装

最新推荐文章于 2024-04-11 22:22:24 发布

Rookie_Feng

最新推荐文章于 2024-04-11 22:22:24 发布

阅读量618

点赞数 1

分类专栏：大数据技术文章标签： Spark集群安装

本文链接：https://blog.csdn.net/xaiomessi/article/details/49931849

版权

大数据技术专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Spark在生产环境中，主要部署在安装有linux系统的集群中。在linux系统中安装Spark需要预先安装JDK、Scala等所需要的依赖。由于Spark是计算框架，所以需要预先在集群内搭建好存储在数据的持久层，Spark主要使用HDFS充当持久层，所以本教程安装Spark集群前需要安装Hadoop集群。

1.Hadoop集群搭建（参考这里）

2.JDK安装（参考这里）

3.Scala安装

首先下载，Scala可以去官网进行下载，官方网址（http://www.scala-lang.org/）我下载的是：scala-2.11.7.tgz.

接下来就是解压到指定的文件中，然后在etc/profile配置环境变量即可。安装成功后输入命令scala会出现以下情形，如下图：

4.Spark安装

首先下载，Scala可以去官网进行下载，官方网址（http://spark.apache.org/）我下载的是：spark-1.5.1-bin-hadoop2.6.tgz接下来就是解压到指定的文件中，最后就是配置文件。这里面主要介绍两个文件，一个是conf/spark-env.sh,另一个是conf/slaves,这两个文件初始都没有，可以进行如下操作生成：

cp spark-env.sh.template  spark-env.sh
cp slaves.template slaves

编辑 conf/spark-env.sh文件，加入下面的配置参数

export SCALA_HOME=/usr/local/scala-2.11.7
export SPARK_HOME=/usr/jiangfeng/spark-1.5.1-bin-hadoop2.6
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export SPARK_MASTER_IP=Master
export SPARK_WORK_MEMORY=1000m

这些都配置的都是基本的参数，其他复杂的参数请见官网的配置。

编辑conf/slaves文件，我搭建的集群只有一个节点，将节点的主机名加入