spark集群搭建

最新推荐文章于 2024-02-26 18:34:42 发布

HawardScut

最新推荐文章于 2024-02-26 18:34:42 发布

阅读量178

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/hao5335156/article/details/81452932

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言

spark环境的搭建依赖于hadoop，所以搭建spark集群之前先搭建hadoop集群。

一、hadoop环境搭建

1、环境介绍

3台机器集群：
192.168.179.133 master 192.168.179.134 node1 192.168.179.135 node2

2、修改各个虚拟机的hostname和host

（1）以master上机器为例，打开终端，执行如下的操作，把hostname修改成master

#修改hostname的指令：
sudo gedit /etc/hostname

（2）

#修改hosts指令：
sudo gedit /etc/hosts

将以下内容添加到hosts中

192.168.179.133 master 192.168.179.134 node1 192.168.179.135 node2

注意：在node1和node2机器上做相似的操作，分别更改主机名为node1和node2，然后把hosts文件更改和master一样

3、创建用户和用户组（三台机器上都要操作）

创建hadoop用户组

sudo addgroup hadoop

创建hadoop用户

sudo adduser -ingroup hadoop hadoop

给hadoop用户添加权限，打开/etc/sudoers文件

sudo gedit /etc/sudoers

给hadoop用户赋予root用户同样的权限
在root ALL=(ALL:ALL) ALL下添加hadoop ALL=(ALL:ALL) ALL

3、检验各个主机之间能否连通

以刚刚创建的hadoop用户重新登录系统，以后的操作都以hadoop用户登录

ping +主机名

4、配置无密码登录SSH

安装ssh

sudo apt-get install openssh-server

验证SSH是否成功安装

ssh localhost

生成密钥Pair

ssh-keygen -t rsa

输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下。可用cd 命令进入查看

在master上，导入authorized_keys

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

远程无密码登录(把master上的authorized_keys拷贝到其他主机的相应目录下(进入master的.ssh目录,执行复制操作
)

scp authorized_keys hadoop@node1:~/.ssh/ scp authorized_keys hadoop@node2:~/.ssh/

修改各台主机上authorized_keys文件的权限(所有机器)

chmod 600 .ssh/authorized_keys

检查免密码登录是否成功(即没有提示输入密码)

ssh node1 ssh node2

以上命令代表登录到其他节点，测试完毕应该返回主机

ssh master

5、master配置hadoop,然后将master的hadoop文件传送给node节点

下载hadoop包，将hadoop2.7.6等重命名hadoop解压到/usr目录下

在/usr/hadoop目录下新建如下目录

mkdir /dfs
mkdir /dfs/name
mkdir /dfs/data
mkdir /tmp

配置文件：hadoop-env.sh
(文件都在/usr/hadoop/etc/hadoop中)
修改JAVA_HOME值（export JAVA_HOME=xxxx）

配置文件：yarn-env.sh
修改JAVA_HOME值（export JAVA_HOME=xxxx）

配置文件：slaves
将内容修改为：

node1
node2

配置文件：core-site.xml


<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131072</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/hadoop/tmp</value>
        <description>Abase for other temporary   directories.</description>
    </property>
</configuration>

配置文件：hdfs-site.xml

<configuration>
       <property>
                <name>dfs.namenode.secondary.http-address</name>
               <value>master:9001</value>
       </property>
     <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/hadoop/dfs/name</value>
       </property>
      <property>
              <name>dfs.datanode.data.dir</name>
              <value>file:/usr/hadoop/dfs/data</value>
       </property>
       <property>
               <name>dfs.replication</name>
               <value>2</value>
        </property>
        <property>
                 <name>dfs.webhdfs.enabled</name>
                  <value>true</value>
         </property>
</configuration>

配置文件：mapred-site.xml
先创建然后编辑

 cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

gedit etc/hadoop/mapred-site.xml

<configuration>
          <property>                                                                  
　　　　　　　　<name>mapreduce.framework.name</name>
                <value>yarn</value>
           </property>
          <property>
                  <name>mapreduce.jobhistory.address</name>
                  <value>master:10020</value>
          </property>
          <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>master:19888</value>
       </property>
</configuration>

配置文件：yarn-site.xml

<configuration>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>                                                                
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
               <name>yarn.resourcemanager.address</name>
               <value>master:8032</value>
       </property>
       <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>master:8030</value>
       </property>
       <property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
             <value>master:8031</value>
      </property>
      <property>
              <name>yarn.resourcemanager.admin.address</name>
               <value>master:8033</value>
       </property>
       <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>master:8088</value>
       </property>
</configuration>

将hadoop传输到node1和node2 usr/hadoop目录
scp -r /usr/hadoop hadoop@node1:/usr

6、配置环境变量，并启动hadoop，检查

打开文件
sudo gedit /etc/profile
编辑

#hadoop  
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH:$HADOOP_HOME/sbin  
export PATH=$PATH:$HADOOP_HOME/bin

记得使文件生效
source /etc/profile

启动hadoop,进入hadoop安装目录(在master节点进行)

bin/hdfs namenode -format   （第一次需要，以后不需要）
sbin/start-all.sh  （启动所有）

启动后分别在master, node下输入jps查看进程：
看到下面的结果，则表示成功

这里写图片描述

二、spark环境搭建

1、Scala环境搭建

下载Scala二进制文件，解压到目录；
添加Scala环境变量，在/etc/profile中添加
export SCALA_HOME=/usr/share/scala export PATH=$SCALA_HOME/bin:$PATH source /etc/profile

2、Spark完全分布式环境搭建

以下操作都在Master节点进行。
下载二进制包spark-2.3.3-bin-hadoop2.7.tgz，解压重命名为spark并移动到相应目录/usr
修改/etc/profie

export SPARK_HOME=/usr/spark/
export PATH=$PATH:$SPARK_HOME/bin

然后source /etc/profie

复制spark-env.sh.template成spark-env.sh
修改$SPARK_HOME/conf/spark-env.sh，添加如下内容：

export JAVA_HOME=XXX
export SCALA_HOME=/usr/share/scala
export HADOOP_HOME=/usr/hadoop
export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.179.133
export SPARK_MASTER_HOST=192.168.179.133
export SPARK_LOCAL_IP=192.168.179.133
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=2
export SPARK_HOME=/usr/spark

复制slaves.template成slaves

cp slaves.template slaves

修改$SPARK_HOME/conf/slaves，添加如下内容：

master
node1
node2

将配置好的spark文件复制到node1和node2节点

　scp /usr/spark hadoop@node1:/usr
  scp /usr/spark hadoop@node2:/usr

在Slave1和Slave2上分别修改/etc/profile，增加Spark的配置，过程同Master一样。

在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh，将export SPARK_LOCAL_IP=192.168.179.133改成Slave1和Slave2对应节点的IP。

启动集群的脚本

/usr/hadoop/sbin/start-all.sh
/usr/spark/sbin/start-all.sh

出现如下，代表成功
这里写图片描述

关闭脚本

/usr/hadoop/sbin/stop-all.sh
/usr/spark/sbin/stop-all.sh

HawardScut

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark集群搭建

前言spark环境的搭建依赖于hadoop，所以搭建spark集群之前先搭建hadoop集群。一、hadoop环境搭建1、环境介绍3台机器集群： 192.168.179.133 master 192.168.179.134 node1 192.168.179.135 node2 2、修改各个虚拟机的hostname和host（1）以master上机器为...
复制链接

扫一扫