Spark On YARN 分布式集群安装

最新推荐文章于 2024-08-17 19:52:53 发布

单眼皮的猪可爱

最新推荐文章于 2024-08-17 19:52:53 发布

阅读量758

点赞数

本文详细介绍了如何在Hadoop完全分布式环境下安装和配置Spark，包括JDK和Scala的安装，Hadoop集群环境的设置，SSH无密登录配置，以及各个配置文件的核心步骤。最后提到了启动和关闭集群的命令。

摘要由CSDN通过智能技术生成

1.安装jdk
2.安装scala
3.hadoop完全分布式运行模式
4.安装spark
1.2.4参考： Spark On YARN 伪分布式集群安装

3.hadoop完全分布式运行模式
3.1 集群环境：(3台主机)

master     #主节点
slave1     #从节点1
salve2     #从节点2

3.2 SSH无密登录配置
简单来说，就是每台主机可以相互切换。方便启动集群。
1）生成公钥和私钥：(一直敲回车就行)

[root@master .ssh]$ ssh-keygen -t rsa

2）将公钥拷贝到要免密登录的目标机器上

#master 可以访问 master/slave1/slave2
[root@master .ssh]$ ssh-copy-id master
[root@master .ssh]$ ssh-copy-id slave1
[root@master .ssh]$ ssh-copy-id slave2

3.3 集群部署规划
Hadoop简介
在这里插入图片描述
3.4 根据部署，配置集群
1）配置全局文件：core-site.xml

[root@master hadoop]$ vim core-site.xml

<configuration>
   <!-- 指定HDFS中NameNode的地址 -->
   <property>
	   <name>fs.defaultFS</name>
       <value>hdfs://master:9000</value>
   </property>

   <!-- 指定hadoop运行时产生文件的存储目录 -->
   <property>
	   <name>hadoop.tmp.dir</name>
	   <value>/opt/module/hadoop-2.7.2/data</value>
   </property>

   <!-- 下面的可以不配 ，我没有配过-->
   <!-- web端查看HDFS文件系统的地址 -->
   <property>
       <name>dfs.http.address</name>
       <value>50070</value>
   </property>
</configuration>

2）hdfs 配置文件
2.1 配置hadoop-env.sh

[root@master hadoop]$ vim hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

2.2 配置 hdfs-site.xml

[root@master hadoop]$ vim hdfs-site.xml

<configuration>
        <!--  副本的个数为3  -->
		<property>
			<name>dfs.replication</name>
			<value>3</value>
		</property>
	
	    <!--  SecondaryNameNode ： slave2 -->
		<property>
	        <name>dfs.namenode.secondary.http-address</name>
	        <value>slave2:50090</value>
	    </property>
</configuration>

3）yarn 配置文件
3.1 配置 yarn-env.sh

[root@master hadoop]$ vim yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

3.2 配置 yarn-site.xml

[root@master hadoop]$ vim yarn-site.xml

<configuration>
	<!-- reducer获取数据的方式 -->
		<property>
			 <name>yarn.nodemanager.aux-services</name>
			 <value>mapreduce_shuffle</value>
		</property>
	
		<!-- ResourceManager : slave1-->
		<property>
			<name>yarn.resourcemanager.hostname</name>
			<value>slave1</value>
		</property>
</configuration>

4）mapreduce 配置文件
4.1 配置 mapred-env.sh

[root@master hadoop]$ vim mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_211

4.2 配置 mapred-site.xml

# 拷贝 mapred-site.xml.template 为 mapred-site.xml
[root@master hadoop]$ cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]$ vi mapred-site.xml

<configuration>
	<!-- 指定mr运行在yarn上 -->
		<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
		</property>
</configuration>

注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
注意：对master ，slave1 ，slave2 都进行3.3 同样的配置；
3.5 启动集群
注意：在 ResouceManager 的节点上启动yarn。