Spark On YARN 分布式集群安装

本文详细介绍了如何在Hadoop完全分布式环境下安装和配置Spark,包括JDK和Scala的安装,Hadoop集群环境的设置,SSH无密登录配置,以及各个配置文件的核心步骤。最后提到了启动和关闭集群的命令。
摘要由CSDN通过智能技术生成

1.安装jdk
2.安装scala
3.hadoop完全分布式运行模式
4.安装spark
1.2.4参考: Spark On YARN 伪分布式集群安装

3.hadoop完全分布式运行模式
3.1 集群环境:(3台主机)

master     #主节点
slave1     #从节点1
salve2     #从节点2

3.2 SSH无密登录配置
简单来说,就是每台主机可以相互切换。方便启动集群。
1)生成公钥和私钥:(一直敲回车就行)

[root@master .ssh]$ ssh-keygen -t rsa 

2)将公钥拷贝到要免密登录的目标机器上

#master 可以访问 master/slave1/slave2
[root@master .ssh]$ ssh-copy-id master
[root@master .ssh]$ ssh-copy-id slave1
[root@master .ssh]$ ssh-copy-id slave2

3.3 集群部署规划
Hadoop简介
在这里插入图片描述
3.4 根据部署,配置集群
1)配置全局文件:core-site.xml

[root@master hadoop]$ vim core-site.xml
<configuration>
   <!-- 指定HDFS中NameNode的地址 -->
   <property>
	   <name>fs.defaultFS</name>
       <value>hdfs://master:9000</value>
   </property>

   <!-- 指定hadoop运行时产生文件的存储目录 -->
   <property>
	   <name>hadoop.tmp.dir</name>
	   <value>/opt/module/hadoop-2.7.2/data</value>
   </property>

   <!-- 下面的可以不配 ,我没有配过-->
   <!-- web端查看HDFS文件系统的地址 -->
   <property>
       <name>dfs.http.address</name>
       <value>50070</value>
   </property>
</configuration>

2)hdfs 配置文件
2.1 配置hadoop-env.sh

[root@master hadoop]$ vim hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

2.2 配置 hdfs-site.xml

[root@master hadoop]$ vim hdfs-site.xml
<configuration>
        <!--  副本的个数为3  -->
		<property>
			<name>dfs.replication</name>
			<value>3</value>
		</property>
	
	    <!--  SecondaryNameNode : slave2 -->
		<property>
	        <name>dfs.namenode.secondary.http-address</name>
	        <value>slave2:50090</value>
	    </property>
</configuration>

3)yarn 配置文件
3.1 配置 yarn-env.sh

[root@master hadoop]$ vim yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

3.2 配置 yarn-site.xml

[root@master hadoop]$ vim yarn-site.xml
<configuration>
	<!-- reducer获取数据的方式 -->
		<property>
			 <name>yarn.nodemanager.aux-services</name>
			 <value>mapreduce_shuffle</value>
		</property>
	
		<!-- ResourceManager : slave1-->
		<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>slave1</value>
		</property>
</configuration>

4)mapreduce 配置文件
4.1 配置 mapred-env.sh

[root@master hadoop]$ vim mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_211

4.2 配置 mapred-site.xml

# 拷贝 mapred-site.xml.template 为 mapred-site.xml
[root@master hadoop]$ cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]$ vi mapred-site.xml
<configuration>
	<!-- 指定mr运行在yarn上 -->
		<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
		</property>
</configuration>

注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
注意:对master ,slave1 ,slave2 都进行3.3 同样的配置;
3.5 启动集群
注意:在 ResouceManager 的节点上启动yarn。


[root@master sbin]$ start-all.sh    

3.6 关闭集群

[root@master sbin]$ stop-all.sh

补充:关于hadoop的启动/关闭命令
在这里插入图片描述
补充:关于spark的启动/关闭命令
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值