基于hadoop-2.8.5下的云环境搭建_spark-3.0.0-bin-hadoop2.8.5-CSDN博客

本文链接：https://blog.csdn.net/qq_47663481/article/details/108859018

基于hadoop-2.8.5下的云环境搭建

一、Hdfs搭建过程（By 傩傩）
二、yarn配置（By Ninght）
三、spark搭建过程（By 哎呀）
四、hdfs、spark、spark搭建过程的改进与整合（By 傩傩）
五、可能遇到的问题及解决方法（By 傩傩、Ninght）

一、Hdfs搭建过程（By 傩傩）

1、准备

安装docker，镜像站daocloud提供一键安装命令：

curl -sSL https://get.daocloud.io/docker | sh

在镜像站daocloud拉取centos7镜像：

docker pull daocloud.io/library/centos:centos7

创建docker的自定义网络，目的是为了固定ip，docker默认使用bridge网络，无法固定ip

docker network create --subnet=172.22.0.0/24 jbhnetwork

新建一个文件夹并进入文件夹所在路径，将jdk安装包、hadoop安装包以及待会儿编写的dockerfile都放入这个文件夹内
下载jdk安装包：

wget https://repo.huaweicloud.com/java/jdk/8u192-b12/jdk-
8u192-linux-x64.tar.gz

下载hadoop安装包：

wget
http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz

2、编写dockerfile

在刚刚新建的hadoop文件夹下编写dockerfile：

vim Hadoop-Dockerfile

Hadoop-Dockerfile内容：
（具体注释参考(这里)）

FROM centos:centos7 MAINTAINER “jbh1283432219@qq.com” RUN yum -y
install openssh-server openssh-clients sudo vim net-tools RUN
ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key RUN ssh-keygen -t ecdsa
-f /etc/ssh/ssh_host_ecdsa_key RUN ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key RUN echo “root:root” | chpasswd RUN
mkdir /opt/software && mkdir /opt/moudle ADD
jdk-8u192-linux-x64.tar.gz /opt/moudle ADD hadoop-2.8.5.tar.gz
/opt/software ENV CENTOS_DEFAULT_HOME /root ENV JAVA_HOME
/opt/moudle/jdk1.8.0_192 ENV JRE_HOME ${JAVA_HOME}/jre ENV CLASSPATH
${JAVA_HOME}/lib:$ {JRE_HOME}/lib ENV HADOOP_HOME
/opt/software/hadoop-2.8.5 ENV PATH
${JAVA_HOME}/bin:$ {HADOOP_HOME}/bin: ${HADOOP_HOME}/sbin:$ PATH WORKDIR
$CENTOS_DEFAULT_HOME EXPOSE 22 CMD ["/usr/sbin/sshd", “-D”]

上面的dockerfile写得不好，连续的RUN和ENV可以合并，例如上面的

RUN yum -y install openssh-server openssh-clients sudo vim net-tools
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key RUN ssh-keygen -t
ecdsa -f /etc/ssh/ssh_host_ecdsa_key RUN ssh-keygen -t ed25519 -f
/etc/ssh/ssh_host_ed25519_key RUN echo “root:root” | chpasswd RUN
mkdir /opt/software && mkdir /opt/moudle

写成下面这样会更好

RUN yum -y install openssh-server openssh-clients sudo vim net-tools
&& ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key \ && ssh-keygen -t
ecdsa -f /etc/ssh/ssh_host_ecdsa_key \ && ssh-keygen -t ed25519 -f
/etc/ssh/ssh_host_ed25519_key \ && echo “root:root” | chpasswd \ &&
mkdir /opt/software && mkdir /opt/moudle

3、构建镜像

dockerfile构建镜像时会默认从当前目录读取并构建，注意命令最后有个英文句号

docker build -f Hadoop-Dockerfile -t jbh/hadoop:2.8.5 .

构建成功：
在这里插入图片描述可以查看镜像信息：

docker images

应该会有jbh/hadoop和centos两个镜像

4、根据构建好的镜像创建并进入容器

创建一个namenode和两个datanode，命令里的56a73b3d978d是镜像id（镜像id可以在docker images下查看，如图）
在这里插入图片描述

docker run -d --name hadoop01 --hostname hadoop01 --net jbhnetwork
–ip 172.22.0.2 -P -p 50070:50070 -p 8088:8088 -p 19888:19888 --privileged 56a73b3d978d /usr/sbin/init docker run -d --name hadoop02 --hostname hadoop02 --net jbhnetwork --ip 172.22.0.3 -P --privileged 56a73b3d978d /usr/sbin/init docker run -d --name hadoop03 --hostname
hadoop03 --net jbhnetwork --ip 172.22.0.4 -P --privileged
56a73b3d978d /usr/sbin/init

查看正在运行的容器

docker ps

分别进入三个容器（下面命令中的08fa60c9b188是容器id，可在docker ps中查看）
在这里插入图片描述

5、修改配置

1.编辑/etc下的hosts文件，配置ip和hostname的映射
在这里插入图片描述 2. 配置ssh免密登陆
在三台容器里都进行如下操作

ssh-keygen -t rsa -N ‘’ ssh-copy-id-i~/.ssh/id_rsa.pub hadoop01
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop02 ssh-copy-id -i
~/.ssh/id_rsa.pub hadoop03

在主节点hadoop01上修改配置文件
先创建所需目录

[root@hadoop01 ~]$ mkdir /opt/software/hadoop-2.8.5/tmp [root@hadoop01
~]$ mkdir -p /opt/software/hadoop-2.8.5/dfs/namenode_data
[root@hadoop01 ~]$ mkdir -p
/opt/software/hadoop-2.8.5/dfs/datanode_data [root@hadoop01 ~]$ mkdir
-p /opt/software/hadoop-2.8.5/checkpoint/dfs/cname

再修改/opt/software/hadoop-2.8.5/etc/hadoop/目录下的配置文件
（具体的注释可参考这里）

hadoop-env.sh

在这里插入图片描述
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

在这里插入图片描述 master（在当前配置文件目录内是不存在master文件的，用vim写入内容到master内保存即可）

slaves
在这里插入图片描述
再把配置好的文件分发到另外两个节点上：

scp -r /opt/software/hadoop-2.8.5/ root@hadoop02:/opt/software/ scp -r
/opt/software/hadoop-2.8.5/ root@hadoop03:/opt/software/

最后再初始化：

hdfs namenode -format

6、启动集群

在主节点hadoop01上启动集群，hadoop02、hadoop03上的相关服务也会启动

#启动dfs服务 start-dfs.sh
#启动yarn服务 start-yarn.sh
#启动任务历史服务器 mr-jobhistory-daemon.sh start historyserver

在这里插入图片描述完成！

7、检查

可用jps查看进程检验是否成功启动
在这里插入图片描述也可以在web界面上查看：
Hdfs界面：
Yarn界面：
Jobhistory界面：
验证hdfs能否正常使用：
新建文件夹

在这里插入图片描述 web页面也能看到新建的文件夹
删除文件：

在这里插入图片描述上传/写入文件：
下载/读取文件：
查看文件：
查看空间：

8、打包（可选操作）

可将将搭建好的三个容器保存为镜像并打包成压缩包：
在这里插入图片描述
若想用打包好的压缩包恢复三个容器，则先把压缩包恢复成镜像：

docker load -i hadoop01.tar.gz docker load -i hadoop01.tar.gz docker
load -i hadoop01.tar.gz

再将镜像恢复成容器（和上面创建容器步骤一样）：

在这里插入图片描述

二、yarn配置（By Ninght）

在hadoop2.8.5安装后自带的yarn中进行yarn配置
在进入容器后的目录

/opt/software/hadoop-2.8.5/etc/hadoop

通过vim命令按照下图编辑yarn-site.xml文件
在这里插入图片描述其中：

1.基本参数配置

1>.yarn.resourcemanager.hostname

为全局资源管理器（ResourcManager）的主机名称

 <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>hadoop01</value>
 </property>

2>.yarn.resourcemanager.address

为ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序。默认值为${yarn.resourcemanager.hostname}:8032

<property>
            <name>yarn.resourcemanager.address</name>
            <value>hadoop01:8032</value>
</property>

3>.yarn.resourcemanager.webapp.address

ResourceManager对外web ui地址。用户可通过该地址在浏览器中查看集群各类信息。默认值为${yarn.resourcemanager.hostname}:8088

<property>
            <name>yarn.resourcemanager.webapp.address</name>
            <value>hadoop01:8088</value>
</property>

4>.yarn.resourcemanager.scheduler.address

ResourceManager 对ApplicationMaster暴露的访问地址。ApplicationMaster通过该地址向RM申请资源、释放资源等。

<property>
            <name>yarn.resourcemanager.scheduler.address</name>
            <value>hadoop01:8030</value>
</property>

5>.yarn.resourcemanager.resource-tracker.address

ResourceManager 对NodeManager暴露的地址.。NodeManager通过该地址向RM汇报心跳，领取任务等。默认值${yarn.resourcemanager.hostname}:8031

<property>
            <name>yarn.resourcemanager.resource-tracker.address</name>
            <value>hadoop01:8031</value>
</property>

6>.yarn.resourcemanager.admin.address

ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。默认值为${yarn.resourcemanager.hostname}:8033

<property>
            <name>yarn.resourcemanager.admin.address</name>
            <value>hadoop01:8033</value>
</property>

7>.yarn.nodemanager.aux-services

NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

<property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
</property>

8>.yarn.log-aggregation-enable

是否启用日志聚集功能，默认值为false

 <property>
            <name>yarn.log-aggregation-enable</name>
            <value>true</value>
 </property>

9>. yarn.log-aggregation.retain-seconds

在HDFS上聚集的日志最多保存的时间，默认值为-1

<property>
            <name>yarn.log-aggregation.retain-seconds</name>
            <value>648000</value>
</property>

10>.yarn.application.classpath

用于引入hadoop路径
在终端中通过

hadoop classpath

命令可以查看

在这里插入图片描述

<property>
        <name>yarn.application.classpath</name>
        <value>/opt/software/hadoop-2.8.5/etc/hadoop:/opt/software/hadoop-2.8.5/share/hadoop/common/lib/*:/opt/software/hadoop-2.8.5/share/hadoop/common/*:/opt/software/hadoop-2.8.5/share/hadoop/hdfs:/opt/software/hadoop-2.8.5/share/hadoop/hdfs/lib/*:/opt/software/hadoop-2.8.5/share/hadoop/hdfs/*:/opt/software/hadoop-2.8.5/share/hadoop/yarn/lib/*:/opt/software/hadoop-2.8.5/share/hadoop/yarn/*:/opt/software/hadoop-2.8.5/share/hadoop/mapreduce/lib/*:/opt/software/hadoop-2.8.5/share/hadoop/mapreduce/*:/opt/software/hadoop-2.8.5/contrib/capacity-scheduler/*.jar
        </value>
</property>

11>.yarn.nodemanager.pmem-check-enabled

是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true。

<property>
                <name>yarn.nodemanager.pmem-check-enabled</name>
                <value>false</value>
</property>

12>.yarn.nodemanager,vmem-check-enabled

是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true。

 <property>
                <name>yarn.nodemanager.vmem-check-enabled</name>
                <value>false</value>
 </property>

2.遇见问题及解决方法

这里配置完成后，在启动yarn时出现了只有nodemanager而没有启动resourcemanager的情况，通过修改容器中

/opt/software/hadoop-2.8.5/sbin

路径下的脚本可以解决

vim yarn-daemon.sh

找到下面的语句

nohup nice -n $YARN_NICENESS "$ HADOOP_YARN_HOME"/bin/yarn --config $YARN_CONF_DIR $c o m m a n d "$ @" > “$log” 2>&1 < /dev/null &

将语句前的

nohup

删去即可

在这里插入图片描述
这时再次启动yarn可以发现能够正常拉起resourcemanager进程

三、spark搭建过程（By 哎呀）

1、安装Spark3.0.0

1.首先下载Spark安装文件：
访问Spark官方下载地址（以下操作均在主节点上进行）

2.下载如下名称文件：

spark-3.0.0-bin-without-hadoop.taz

3.以下装配操作需要环境如下：
JAVA JDK 1.8
Hadoop 2.8.5及以上的集群环境

4.下载完毕后，用以下命令解压安装包并修改目录权限：

sudo tar –zxf ~/downloads/spark-3.0.0-bin-without-hadoop.taz -C/usr/local

~/downloads………taz 为压缩文件的路径及文件名，/usr/local为压缩到的路径

cd /usr/local
sudo mv ./spark-3.0.0-bin-without-hadoop/ ./spark

赋予权限，其中hadoop为用户名

sudo chown –R hadoop ./spark

2、修改配置文件

1.修改bashrc
在节点主机终端执行如下命令：

vim ~/.bashrc

在.bashrc中添加如下配置

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export JAVA_HOME=/opt/moudle/jdk1.8.0_192
export JRE_HOME=${JAVA_HOME}/jre

保存并退出后运行source命令，使修改生效

source ~/.bashrc

2.修改slaves配置文件

cd /usr/local/spark/
cp ./conf/slaves.template ./conf/slaves

把默认内容localhost换成以下内容

hadoop01
hadoop02

以上分别为两个从节点的主机名
3．配置spark-env.sh文件

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh，添加以下内容

export SPARK_DIST_CLASSPATH=$(/opt/software/hadoop-2.8.5/bin/hadoop classpath)

括号内为hadoop路径

export HADOOP_CONF_DIR=/opt/software/hadoop-2.8.5/etc/hadoop
export SPARK_MASTER_IP=10.249.45.223

等号后为主节点IP

4．发送文件夹到从节点
在主节点上执行如下命令：

cd /usr/local
tar –zcf ~/spark.master.tar.gz ./spark
cd ~
scp ./spark.master.tar.gz hadoop02:/home/usr/local
scp ./spark.master.tar.gz hadoop03:/home/usr/local

以下操作分别在两个从节点上执行：

sudo rm –rf /usr/local/spark/
sudo tar-zxf ~/spark.master.tar.gz –C /usr/local
sudo chown –R hadoop /usr/local/spark

3、启动spark集群

首先启动hadoop集群
启动master节点
在Master节点上运行如下命令

cd /usr/local/spark/
sbin/start-master.sh

启动从节点
在Master节点上运行如下命令

cd /usr/local/spark/
sbin/start-slaves.sh

查看spark启动后的集群信息
在Master主机上打开浏览器，访问http：//master:8080
节点的关闭

sbin/stop-master.sh
sbin/stop-slaves.sh

再关闭hadoop集群

Spark的webui界面：

在这里插入图片描述

4、提供一个测试代码

from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("yarn").setAppName("My App")
sc = SparkContext(conf = conf)
logFile = "hdfs://hadoop01:9000/a1/a1"
logData = sc.textFile(logFile,2).cache()
numAs = logData.filter(lambda line:'a' in line).count()
print('Lines with a:%s'%(numAs))

四、hdfs、spark、spark搭建过程的改进与整合（By 傩傩）

1、改进思路：

1、将等的安装都写入dockerfile内，再根据dockerfile构建一个包含hdfs、yarn、spark、java，但没有配置文件的镜像。
2、将写好的配置文件存在宿主机内，然后在根据镜像创建容器时，通过docker run的-v命令将宿主机内的配置文件挂载到容器内，这样就免去了每次创建容器时都要重新配置文件的麻烦。
3、将容器内的一些重要文件如元数据、datanode存储的文件等也通过docker run的-v命令映射到宿主机内，防止容器丢失或删除时里面这些文件也随之丢失。

2、编写含hdfs、yarn、spark、java在内的dockerfile：FROM centos:centos7

FROM centos:centos7
MAINTAINER “jbh1283432219@qq.com”
RUN yum -y install openssh-server openssh-clients sudo vim net-tools \
&& ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key \
&& ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key \
&& ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key \
RUN echo “root:root” | chpasswd
RUN mkdir /opt/software && mkdir /opt/moudle
ADD jdk-8u192-linux-x64.tar.gz /opt/moudle
ADD hadoop-2.8.5.tar.gz /opt/software
ADD spark-3.0.0-bin-without-hadoop.tgz /opt/software
ENV HADOOP_HOME /opt/software/hadoop-2.8.5
SPARK_HOME/opt/software/spark-3.0.0-bin-without-hadoop
JAVA_HOME /opt/moudle/jdk1.8.0_192
JRE_HOME ${JAVA_HOME}/jre
CLASSPATH ${JAVA_HOME}/lib:$ {JRE_HOME}/lib
PATH ${JAVA_HOME}/bin:$ {HADOOP_HOME}/bin: ${HADOOP_HOME}/sbin:$ {SPARK_HOME}/bin: ${SPARK_HOME}/sbin:$ PATH
WORKDIR /root
EXPOSE 22
CMD ["/usr/sbin/sshd", “-D”]

3、根据dockerfile创建镜像

创建镜像前要确认hadoop、spark、java的安装包与dockerfile在同一目录下
hadoop、spark、java的安装命令：

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
wget http://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-without-hadoop.tgz
wget https://repo.huaweicloud.com/java/jdk/8u192-b12/jdk-8u192-linux-x64.tar.gz

创建镜像（这里网络模式使用的是host，与宿主机共享ip）：

docker build --network=host -f dockerfile -t hadooop-spark:2.8.5

4、创建容器

1.

存放在宿主机的配置文件有如下几个
在这里插入图片描述其中
bashrc文件配置：

在这里插入图片描述
Profile文件配置：

hosts文件配置：
hadoop文件夹内的配置文件与上面配置hdfs时的

/opt/software/hadoop-2.8.5/etc/hadoop/

目录下的配置文件一致

spark文件夹（相对于上面配置spark时的配置有改动，主要是改变了spark的路径）：
Spark-env.sh文件：
在这里插入图片描述
slaves文件：

dfs、checkpoint、tmp这三个文件夹不是配置文件，是映射到宿主机、存放容器内重要数据的文件。
dfs文件夹内有namenode_data和datanode_data两个文件夹，分别存放主节点元数据和从节点存储的文件块。
checkpoint存放有与checkpoint相关的数据文件。
tmp存放有临时数据文件。

2.

根据镜像创建容器，并用-v命令把存在宿主机里的配置文件挂载到容器内：

docker run -d --name hadoop1 --net host -P --privileged -v
/root/configurationfile/hadoop:/opt/software/hadoop-2.8.5/etc/hadoop
-v /root/configurationfile/hosts:/etc/hosts -v /root/configurationfile/dfs:/opt/software/hadoop-2.8.5/dfs -v
/root/configurationfile/tmp:/opt/software/hadoop-2.8.5/tmp -v
/root/configurationfile/checkpoint/dfs/cname:/opt/software/hadoop-2.8.5/checkpoint/dfs/cname
-v /root/configurationfile/spark/conf:/opt/software/spark-3.0.0-bin-without-hadoop/conf
-v /root/configurationfile/profile:/etc/profile -v /root/configurationfile/bashrc:/root/.bashrc a7621d9796e1
/usr/sbin/init

进入容器后配置ssh后便可使用

五、可能遇到的问题及解决方法（By 傩傩、Ninght）

一、运行Dockerfile构建镜像过程中RUN yum出错

解决方法：
1.可能是网络问题，检查网络是否正常
2.若宿主机网络没问题，可以尝试在docker build命令时添加–net=host
3.可能是防火墙未关闭，关闭防火墙

二、ssh连接失败

解决方法：
查看hosts文件有没有配置好主机名和ip的映射，有时候重启容器后hosts文件会自动复原

三、成功拉起hdfs、yarn、spark等服务后却无法打开web ui界面

解决方法：
可能是防火墙未关闭，尝试关闭防火墙

四、用start-dfs.sh启动hdfs的时候没有报错，但查看从节点的jps却没有datanode

在执行文件系统格式化时，会在namenode数据文件夹（即配置文件中dfs.name.dir在本地系统的路径）中保存一个current/VERSION文件，记录namespaceID，标识了所格式化的 namenode的版本。如果频繁的格式化namenode，那么datanode中保存（即配置文件中dfs.data.dir在本地系统的路径）的current/VERSION文件只是保存着第一次格式化时的namenode ID，因此造成datanode与namenode之间的id不一致，导致datanode无法启动
解决方法是删除current文件夹，然后重新hdfs namenode -format进行初始化。