大数据分布式集群搭建详细步骤(Spark的安装与配置)

安装scala环境

1、解压scala 的 tar 包

首先我们进入到本系统的/opt/soft路径下可以看到我们所提供的 scala 安装包,接下来我们在/usr/下创建 scala 文件夹,然后解压 scala 到我们所创建的 scala 工作路径中,具体操作如下图所示:

[root@master ~]# cd /opt/soft/
[root@master soft]# ls
apache-hive-2.1.1-bin.tar.gz  jdk-8u171-linux-x64.tar.gz           requests-2.22.0-py2.py3-none-any.whl  zookeeper-3.4.10.tar.gz
hadoop-2.7.3.tar.gz           mysql-connector-java-5.1.47-bin.jar  scala-2.11.12.tgz
hbase-1.2.4-bin.tar.gz        mysql-connector-java-5.1.5-bin.jar   spark-2.4.0-bin-hadoop2.7.tgz
[root@master soft]# mkdir -p /usr/scala
[root@master soft]# tar -zxvf scala-2.11.12.tgz -C /usr/scala/

在这里插入图片描述
2、配置scala环境变量(三台机器)

[root@master soft]# cd /usr/scala/scala-2.11.12/
[root@master scala-2.11.12]# pwd
/usr/scala/scala-2.11.12
[root@master scala-2.11.12]# vi /etc/profile
#Scala Home
export SCALA_HOME=/usr/scala/scala-2.11.12
export PATH=$SCALA_HOME/bin:$PATH
# 更新环境变量
[root@master scala-2.11.12]# source /etc/profile
#查看scala 是否安装成功
[root@master scala-2.11.12]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

3.复制 scala 到子节点

因为我们是集群环境,所以接下来我们需要将我们的 scala 环境发送到我们的其他子节点上,具体操作如下:

[root@master scala-2.11.12]# scp -r /usr/scala/ root@slave1:/usr

[root@master scala-2.11.12]# scp -r /usr/scala/ root@slave2:/usr

# 验证scala 是否安装成功
[root@slave1 usr]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

[root@slave2 usr]# scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

解压Spark的tar包

1、首先我们进入到本系统的/opt/soft路径下可以看到我们所提供的 spark 安装包,接下来我们在/usr/下创建 spark 文件夹,然后解压 spark 到我们所创建的 spark 工作路径中

[root@master soft]# cd /opt/soft/
[root@master soft]# ls
apache-hive-2.1.1-bin.tar.gz  jdk-8u171-linux-x64.tar.gz           requests-2.22.0-py2.py3-none-any.whl  zookeeper-3.4.10.tar.gz
hadoop-2.7.3.tar.gz           mysql-connector-java-5.1.47-bin.jar  scala-2.11.12.tgz
hbase-1.2.4-bin.tar.gz        mysql-connector-java-5.1.5-bin.jar   spark-2.4.0-bin-hadoop2.7.tgz
# 创建工作路径
[root@master soft]# mkdir -p /usr/spark
# 解压Spark
[root@master soft]# tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz -C /usr/spark/

1.复制 spark-env.sh 模板

我们需要将 spark-env.sh.template 复制为 spark-env.sh,命令为: cp sparkenv.sh.template spark-env.sh.当复制出 spark-env.sh 文件后我们可以使用 vim 进行编译,具体操作如下

[root@master soft]# cd /usr/spark/spark-2.4.0-bin-hadoop2.7/conf/
[root@master conf]# ls
docker.properties.template  log4j.properties.template    slaves.template               spark-env.sh.template
fairscheduler.xml.template  metrics.properties.template  spark-defaults.conf.template
[root@master conf]# cp spark-env.sh.template spark-env.sh

2、配置spark-env.sh文件

[root@master conf]# vi spark-env.sh
export SPARK_MASTER_IP=master
export SCALA_HOME=/usr/scala/scala-2.11.12
export SPARK_WORKER_MEMORY=8g
export JAVA_HOME=/usr/java/jdk1.8.0_171
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.3/etc/hadoop

3、配置 spark 从节点,修改 slaves 文件

[root@master conf]# cp slaves.template slaves
[root@master conf]# vi slaves
slave1
slave2

在这里插入图片描述
4、配置 spark 环境变量(三台机器)

[root@master ~]# vi /etc/profile
# Spark Home
export SPARK_HOME=/usr/spark/spark-2.4.0-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
# 更新环境变量
[root@master ~]# source /etc/profile

向所有子节点发送 Spark 配置好的安装包

[root@master ~]# scp -r /usr/spark/ root@slave1:/usr/
[root@master ~]# scp -r /usr/spark/ root@slave2:/usr/

测试Spark环境

因为我们安装的是 spark on yarn 模式,所有接下来我们需要开启 hadoop 环境

[root@master ~]# /usr/hadoop/hadoop-2.7.3/sbin/start-all.sh
#查看各节点进程
[root@master ~]# jps
2929 Jps
2678 ResourceManager
2521 SecondaryNameNode
2334 NameNode

开启Spark集群

[root@master ~]# /usr/spark/spark-2.4.0-bin-hadoop2.7/sbin/start-all.sh
# 查看各节点进程
[root@master ~]# jps

在这里插入图片描述

访问Web界面

我们可以在浏览器中输入我们 master 节点的 IP 地址,端口号为 8080 具体操作如下图所示:

在这里插入图片描述
接下来我们开启我们的 spark-shell 以及 pyspark 进入到 spark 的交互模式:
首先 spark-shell 此时进入的是 scala 环境的 spark 交互模式,具体操作如下图所示:

在这里插入图片描述
接下来我们输入命令进入 python 环境下的 spark 交互模式,具体操作如下图所示:
在这里插入图片描述
至此,我们的 Spark环境就已经搭建成功了。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在进行Hadoop开发前,需要先配置好Hadoop的开发环境,包括安装Hadoop和搭建伪分布式集群。以下是Hadoop安装和伪分布式集群搭建的步骤: 1. 下载Hadoop 在Hadoop官网下载最新版本的Hadoop压缩包。当前最新版本是3.3.1。 2. 解压缩Hadoop 将下载的Hadoop压缩包解压缩到本地目录,比如/opt/hadoop。解压缩后,会得到一个hadoop-3.3.1目录。 3. 配置Hadoop环境变量 在~/.bashrc文件中添加以下内容: export HADOOP_HOME=/opt/hadoop/hadoop-3.3.1 export PATH=$PATH:$HADOOP_HOME/bin 然后执行source ~/.bashrc,使配置生效。 4. 配置Hadoop 进入Hadoop的安装目录,修改配置文件。以下是必须修改的配置文件: - core-site.xml 在Hadoop安装目录的/etc/hadoop/目录下,创建core-site.xml文件,并添加以下内容: <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> 这个配置指定了Hadoop的默认文件系统为HDFS,并且HDFS的访问地址为localhost:9000。 - hdfs-site.xml 在Hadoop安装目录的/etc/hadoop/目录下,创建hdfs-site.xml文件,并添加以下内容: <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> 这个配置指定了HDFS的副本数为1。 - mapred-site.xml 在Hadoop安装目录的/etc/hadoop/目录下,创建mapred-site.xml文件,并添加以下内容: <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 这个配置指定了MapReduce的框架为YARN。 - yarn-site.xml 在Hadoop安装目录的/etc/hadoop/目录下,创建yarn-site.xml文件,并添加以下内容: <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> 这个配置指定了NodeManager的辅助服务为mapreduce_shuffle,并且指定了ShuffleHandler类。 5. 格式化HDFS 在Hadoop安装目录下,执行以下命令: $ hdfs namenode -format 这个命令会格式化HDFS,清空HDFS中的所有文件。 6. 启动Hadoop 在Hadoop安装目录下,执行以下命令: $ start-all.sh 这个命令会启动Hadoop的所有组件,包括NameNode、DataNode、ResourceManager、NodeManager等。 7. 验证Hadoop是否正常工作 在浏览器中访问http://localhost:8088/,可以看到YARN的Web界面。在浏览器中访问http://localhost:50070/,可以看到HDFS的Web界面。 至此,Hadoop的安装和伪分布式集群搭建完成。可以开始进行Hadoop的开发了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Code-Dragon

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值