【转载】Spark On YARN 集群安装部署_spark 单机部署 jps有哪些进程-CSDN博客

Spark On YARN 集群安装部署

发表于 2015-04-04 | 分类于分布式系统 | 12 条评论 | 阅读次数 15345

最近毕设需要用到 Spark 集群，所以就记录下了部署的过程。我们知道 Spark 官方提供了三种集群部署方案： Standalone, Mesos, YARN。其中 Standalone 最为方便，本文主要讲述结合 YARN 的部署方案。

软件环境：

Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)
Hadoop: 2.6.0
Spark: 1.3.0

0 写在前面

本例中的演示均为非 root 权限，所以有些命令行需要加 sudo，如果你是 root 身份运行，请忽略 sudo。下载安装的软件建议都放在 home 目录之上，比如~/workspace中，这样比较方便，以免权限问题带来不必要的麻烦。

1. 环境准备

修改主机名

我们将搭建1个master，2个slave的集群方案。首先修改主机名vi /etc/hostname，在master上修改为master，其中一个slave上修改为slave1，另一个同理。

配置hosts

在每台主机上修改host文件

      
      
       
       vi /etc/hosts
      
      
      
      
      
      
       
       10.1
       
       .1
       
       .107      master
      
      
      
      
       
       10.1
       
       .1
       
       .108      slave1
      
      
      
      
       
       10.1
       
       .1
       
       .109      slave2

配置之后ping一下用户名看是否生效

      
      
       
       ping slave1
      
      
      
      
       
       ping slave2

SSH 免密码登录

安装Openssh server

      
      
       
       sudo apt-get 
       
       install openssh-
       
       server

在所有机器上都生成私钥和公钥

      
      
       
       ssh-keygen -t rsa   
       
       #一路回车

需要让机器间都能相互访问，就把每个机子上的id_rsa.pub发给master节点，传输公钥可以用scp来传输。

      
      
       
       scp ~/.ssh/id_rsa
       
       .pub spark@master:~/.ssh/id_rsa
       
       .pub
       
       .slave1

在master上，将所有公钥加到用于认证的公钥文件authorized_keys中

      
      
       
       cat ~
       
       /.ssh/id_rsa.pub* 
       
       >> ~
       
       /.ssh/authorized_keys

将公钥文件authorized_keys分发给每台slave

      
      
       
       scp ~
       
       /.ssh/authorized_keys spark
       
       @slave1
       
       :~/.ssh/

在每台机子上验证SSH无密码通信

如果登陆测试不成功，则可能需要修改文件authorized_keys的权限（权限的设置非常重要，因为不安全的设置安全设置,会让你不能使用RSA功能）

      
      
       
       chmod 
       
       600 ~
       
       /.ssh/authorized_keys

安装 Java

从官网下载最新版 Java 就可以，Spark官方说明 Java 只要是6以上的版本都可以，我下的是 jdk-7u75-linux-x64.gz
在~/workspace目录下直接解压

      
      
       
       tar 
       
       -zxvf 
       
       jdk-7u75-linux-x64
       
       .gz

修改环境变量sudo vi /etc/profile，添加下列内容，注意将home路径替换成你的：

      
      
       
       export WORK_SPACE=
       
       /home/spark
       
       /workspace/
      
      
      
      
       
       export JAVA_HOME=$WORK_SPACE/jdk1.
       
       7.0_75
      
      
      
      
       
       export JRE_HOME=
       
       /home/spark
       
       /work/jdk1.
       
       7.0_75/jre
      
      
      
      
       
       export PATH=$JAVA_HOME/
       
       bin:$JAVA_HOME/jre/
       
       bin:$PATH
      
      
      
      
       
       export CLASSPATH=$
       
       CLASSPATH:.:$JAVA_HOME/
       
       lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功

      
      
       
       $ source /etc/profile   #生效环境变量
      
      
      
      
       
       $ java -version         #如果打印出如下版本信息，则说明安装成功
      
      
      
      
       
       java version 
       
       "1.7.0_75"
      
      
      
      
       
       Java(TM) SE Runtime Environment (
       
       build 
       
       1.
       
       7.
       
       0_75-
       
       b13)
      
      
      
      
       
       Java HotSpot(TM) 
       
       64-
       
       Bit Server VM (
       
       build 
       
       24.
       
       75-
       
       b04, mixed mode)

安装 Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我这里下了 2.10.4，官方下载地址（可恶的天朝大局域网下载 Scala 龟速一般）。

同样我们在~/workspace中解压

再次修改环境变量sudo vi /etc/profile，添加以下内容：

      
      
       
       export SCALA_HOME=
       
       $WORK_SPACE/scala-2.10.4
      
      
      
      
       
       export PATH=
       
       $PATH:
       
       $SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

      
      
       
       $ source /etc/profile   
       
       #生效环境变量
      
      
      
      
       
       $ scala -
       
       version        
       
       #如果打印出如下版本信息，则说明安装成功
      
      
      
      
       
       Scala code runner 
       
       version 
       
       2.10
       
       .4 
       
       -- Copyright 2002-2013, LAMP/EPFL

安装配置 Hadoop YARN

下载解压

从官网下载 hadoop2.6.0 版本，这里给个我们学校的镜像下载地址。

同样我们在~/workspace中解压

配置 Hadoop

cd ~/workspace/hadoop-2.6.0/etc/hadoop进入hadoop配置目录，需要配置有以下7个文件：hadoop-env.sh，yarn-env.sh，slaves，core-site.xml，hdfs-site.xml，maprd-site.xml，yarn-site.xml

在hadoop-env.sh中配置JAVA_HOME

        
        
         
         # The java implementation to use.
        
        
        
        
         
         export JAVA_HOME=
         
         /home/spark
         
         /workspace/jdk1.
         
         7.0_75

在yarn-env.sh中配置JAVA_HOME

        
        
         
         # some Java 
         
         parameters
        
        
        
        
         
         export 
         
         JAVA_HOME=/home/
         
         spark/workspace/
         
         jdk1.7.0_75

在slaves中配置slave节点的ip或者host，

修改core-site.xml

        
        
         
         <configuration>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>fs.defaultFS
         
         </name>
        
        
        
                
         
         <value>hdfs:
         
         //master:9000/</value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                 
         
         <name>hadoop.tmp.dir
         
         </name>
        
        
        
                 
         
         <value>file:
         
         /home/spark
         
         /workspace/hadoop
         
         -2.6
         
         .0/tmp
         
         </value>
        
        
        
            
         
         </property>
        
        
        
        
         
         </configuration>

修改hdfs-site.xml

        
        
         
         <configuration>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>dfs.namenode.secondary.http-address
         
         </name>
        
        
        
                
         
         <value>master:
         
         9001
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>dfs.namenode.name.dir
         
         </name>
        
        
        
                
         
         <value>file:
         
         /home/spark
         
         /workspace/hadoop
         
         -2.6
         
         .0
         
         /dfs/name
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>dfs.datanode.data.dir
         
         </name>
        
        
        
                
         
         <value>file:
         
         /home/spark
         
         /workspace/hadoop
         
         -2.6
         
         .0
         
         /dfs/data
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>dfs.replication
         
         </name>
        
        
        
                
         
         <value>
         
         3
         
         </value>
        
        
        
            
         
         </property>
        
        
        
        
         
         </configuration>

修改mapred-site.xml

        
        
         
         <configuration>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>mapreduce.framework.name
         
         </name>
        
        
        
                
         
         <value>yarn
         
         </value>
        
        
        
            
         
         </property>
        
        
        
        
         
         </configuration>

修改yarn-site.xml

        
        
         
         <configuration>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.nodemanager.aux-services
         
         </name>
        
        
        
                
         
         <value>mapreduce_shuffle
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class
         
         </name>
        
        
        
                
         
         <value>org.apache.hadoop.mapred.ShuffleHandler
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.resourcemanager.address
         
         </name>
        
        
        
                
         
         <value>master:8032
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.resourcemanager.scheduler.address
         
         </name>
        
        
        
                
         
         <value>master:8030
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.resourcemanager.resource-tracker.address
         
         </name>
        
        
        
                
         
         <value>master:8035
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.resourcemanager.admin.address
         
         </name>
        
        
        
                
         
         <value>master:8033
         
         </value>
        
        
        
            
         
         </property>
        
        
        
            
         
         <property>
        
        
        
                
         
         <name>yarn.resourcemanager.webapp.address
         
         </name>
        
        
        
                
         
         <value>master:8088
         
         </value>
        
        
        
            
         
         </property>
        
        
        
        
         
         </configuration>

将配置好的hadoop-2.6.0文件夹分发给所有slaves吧

      
      
       
       scp -r ~
       
       /workspace/hadoop-
       
       2.6.
       
       0 spark
       
       @slave1
       
       :~/workspace/

启动 Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

      
      
       
       cd ~/workspace/hadoop
       
       -2.6
       
       .0     
       
       #进入hadoop目录
      
      
      
      
       
       bin/hadoop namenode -
       
       format     
       
       #格式化namenode
      
      
      
      
       
       sbin/
       
       start-dfs.sh               
       
       #启动dfs 
      
      
      
      
       
       sbin/
       
       start-yarn.sh              
       
       #启动yarn

验证 Hadoop 是否安装成功

可以通过jps命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

      
      
       
       $ jps  #run on master
      
      
      
      
       
       3407 SecondaryNameNode
      
      
      
      
       
       3218 NameNode
      
      
      
      
       
       3552 ResourceManager
      
      
      
      
       
       3910 Jps

在每个slave上应该有以下几个进程：

      
      
       
       $ jps   #run on slaves
      
      
      
      
       
       2072 NodeManager
      
      
      
      
       
       2213 Jps
      
      
      
      
       
       1962 DataNode

或者在浏览器中输入 http://master:8088 ，应该有 hadoop 的管理界面出来了，并能看到 slave1 和 slave2 节点。

Spark安装

下载解压

进入官方下载地址下载最新版 Spark。我下载的是 spark-1.3.0-bin-hadoop2.4.tgz。

在~/workspace目录下解压

      
      
       
       tar 
       
       -zxvf 
       
       spark-1
       
       .3
       
       .0-bin-hadoop2
       
       .4
       
       .tgz
      
      
      
      
       
       mv 
       
       spark-1
       
       .3
       
       .0-bin-hadoop2
       
       .4 
       
       spark-1
       
       .3
       
       .0    #原来的文件名太长了，修改下

配置 Spark

      
      
       
       cd ~/workspace/spark-
       
       1.3.
       
       0/conf    #进入spark配置目录
      
      
      
      
       
       cp spark-env
       
       .sh
       
       .template spark-env
       
       .sh   #从配置模板复制
      
      
      
      
       
       vi spark-env
       
       .sh     #添加配置内容

在spark-env.sh末尾添加以下内容（这是我的配置，你可以自行修改）：

      
      
       
       export SCALA_HOME=
       
       /home/spark
       
       /workspace/scala-
       
       2.10.
       
       4
      
      
      
      
       
       export JAVA_HOME=
       
       /home/spark
       
       /workspace/jdk1.
       
       7.0_75
      
      
      
      
       
       export HADOOP_HOME=
       
       /home/spark
       
       /workspace/hadoop-
       
       2.6.
       
       0
      
      
      
      
       
       export HADOOP_CONF_DIR=
       
       $HADOOP_HOME
       
       /etc/hadoop
      
      
      
      
       
       SPARK_MASTER_IP=master
      
      
      
      
       
       SPARK_LOCAL_DIRS=
       
       /home/spark
       
       /workspace/spark-
       
       1.3.
       
       0
      
      
      
      
       
       SPARK_DRIVER_MEMORY=
       
       1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。

vi slaves在slaves文件下填上slave主机名：

将配置好的spark-1.3.0文件夹分发给所有slaves吧

      
      
       
       scp -r ~
       
       /workspace/spark-
       
       1.3.
       
       0 spark
       
       @slave1
       
       :~/workspace/

启动Spark

      
      
       
       sbin/start-
       
       all.
       
       sh

验证 Spark 是否安装成功

用jps检查，在 master 上应该有以下几个进程：

      
      
       
       $ jps
      
      
      
      
       
       7949 Jps
      
      
      
      
       
       7328 SecondaryNameNode
      
      
      
      
       
       7805 Master
      
      
      
      
       
       7137 NameNode
      
      
      
      
       
       7475 ResourceManager

在 slave 上应该有以下几个进程：

      
      
       
       $jps
      
      
      
      
       
       3132 DataNode
      
      
      
      
       
       3759 Worker
      
      
      
      
       
       3858 Jps
      
      
      
      
       
       3231 NodeManager

进入Spark的Web管理页面： http://master:8080

运行示例

      
      
       
       #本地模式两线程运行
      
      
      
      
       
       ./bin/run-example SparkPi 
       
       10 --master local[
       
       2]
      
      
      
      
      
      
       
       #Spark Standalone 集群模式运行
      
      
      
      
       
       ./bin/spark-submit \
      
      
      
      
       
         --
       
       class org.apache.spark.examples.SparkPi \
      
      
      
      
       
         --master 
       
       spark:/
       
       /master:7077 \
      
      
      
      
       
         lib/spark-examples-
       
       1.3.
       
       0-hadoop2.
       
       4.0.jar \
      
      
      
        
       
       100
      
      
      
      
      
      
       
       #Spark on YARN 集群上 yarn-cluster 模式运行
      
      
      
      
       
       ./bin/spark-submit \
      
      
      
      
       
           --
       
       class org.apache.spark.examples.SparkPi \
      
      
      
      
       
           --master yarn-cluster \  
       
       # can also be `yarn-client`
      
      
      
          
       
       lib/spark-examples*.jar \
      
      
      
          
       
       10