spark2.x 独立集群环境搭建 | 适用于spark集群环境搭建

最新推荐文章于 2024-08-06 19:03:55 发布

gamedev˚

最新推荐文章于 2024-08-06 19:03:55 发布

阅读量943

点赞数 1

分类专栏：【大数据】➣ Spark 文章标签： spark-standalone spark

欢迎转载，注明作者和出处就好！如果有任何问题或文章存在明显的谬误，请留言说明原因谢谢，我也可以知道原因，不断进步！

本文链接：https://blog.csdn.net/coder__cs/article/details/79177956

版权

【大数据】➣ Spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

在开始环境搭建的教程之前，先说明下此篇博文为作者自学过程中实际操作总结，正确性以验证，并作为一位学习者记录自己的操作过程。

准备一个以上的unix系统环境 | 克隆WM虚拟机及修改系统参数的全过程

克隆WM虚拟机

克隆之前local模式下调试的spark虚拟机，采用克隆完整文件的模式
这里写图片描述

修改unix系统参数

通过上一步的克隆，得到多个unix系统环境，现在拿其中一个进行修改举例，其余部分大致相同，除了IP和主机名以外。

第一步修改mac地址

在虚拟机还未启动之前，先修改该系统的mac地址，如下操作所示。
这里写图片描述

生成新的mac地址，并用记事本记录
修改完成后启动虚拟机
打开终端窗口并切换到root用户，键入命令

vim /etc/udev/rules.d/70-persistent-net.rules

通过图形化界面可以看到网络使用的是系统自动创建的自动分配IP地址的虚拟网卡Auto eth1或者除开eth0以外的其他虚拟网卡配置信息栏，这时候删除其他的配置信息栏，只留下eth0，并将eth0中ATTR{address}修改为刚才用记事本记录的mac地址，修改成功后保存该文本，如下所示。
这里写图片描述

第二步修改ip地址

同样在root用户下，通过键入以下命令，修改IP地址、网关地址及mac地址。

vim /etc/sysconfig/network-scripts/ifcfg-eth0

这里写图片描述

第三步修改hostname

通过以下两个命令，在两处修改hostname

vim /etc/sysconfig/network   

NETWORKING=yes
HOSTNAME=spark-master

vim /etc/hosts      

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.180  spark-master
192.168.1.181  spark-slave

以上步骤修改完成，重启系统。
至此，克隆WM虚拟机及修改系统参数的全过程

集群介绍及配置集群环境

通过上一克隆步骤，所有主机上都拥有相同的spark文件了，下面我们来介绍如何使用集群启动脚本。在我的配置过程中，由于磁盘存储空间的原因，只设置了两个unix系统，配置列表如下：

主机名            IP地址
spark-master     192.168.1.180
spark-slave      192.168.1.181

这里需要注意：集群中所有主机的hosts文件中，ip地址与主机名的映射关系都需要添加进去，因为这里涉及到跨主机通信，在主节点上启动工作节点时，会涉及使用其他主机的hostname的情况。

在两个unix系统的/etc/hosts文件中，分别加入集群中各主机的ip地址与主机名映射

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.1.180  spark-master
192.168.1.181  spark-slave

第一步配置master到slave的免密登陆

#生成ssh免登陆密钥
#进入到我的home目录
cd ~/.ssh

ssh-keygen -t rsa （四个回车）
执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免登陆的机器上
ssh-copy-id localhost

第二步编辑主节点的 `$SPARK_HOME/conf/slaves` 文件并填上所有工作节点的主机名

echo "spark-slave" >> $SPARK_HOME/conf/slaves

第三步修改$HADOOP_HOME/bin/hadoop下的core-site.xml和yarn-site.xml文件配置，由原来的local模式转为集群模式

## core-site.xml
<configuration>
<!-- 指定HADOOP所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://spark-master:9000/</value>
    </property>
    <!-- 指定hadoop运行时产生文件的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/elon/app/hadoop-2.7.5/tmp</value>
    </property>
    <!-- Static Web User Filter properties. -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>elon.hadoop-yarn</value>
    </property>
</configuration>

## yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
    <!-- 指定YARN的老大（ResourceManager）的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>spark-slave</value>
    </property>
    <!-- reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>