基于 Docker 搭建 Hadoop 平台

前言

学校课程要求学习Hadoop,老师说要用VM虚拟机,搭建至少3个结点的集群,我寻思使用Docker不是更方便快捷吗,一来不用重复配置了,二来可能趁此机会学习Docker用法,于是就开始折腾了。

作此文,供学习记录。

如果只是希望尽快搭建好环境,可以参见文章 “通过已有镜像极速搭建” 部分,直接使用打包并配置好的镜像。

环境

Dockers20.10.7 + Hadoop3.3
其它工具:VS Code的Dockers插件

遇到的坑

  1. 一开始使用腾讯云学生机 CentOS 7 的服务器来搭建环境,但是在Dockers中启动Hadoop3.10时可能会导致服务器卡死,只能重新启动服务器。
    原因:不明。尝试在本机搭建,暂且解决问题。[更新:可能是ip冲突]
  2. 找不到hadoop/etc/hadoop/slaves文件,自行创建后配置无效
    原因:3.3版本中,slaves文件被workers文件取代,配置workers文件即可
  3. 运行yum install 报错:Failed to download metadata for repo ‘AppStream’ [CentOS]
    原因:centOS Linux8的官方源已经停止服务,需要更换源,我采用的是更换为阿里源(参考链接2)
    参考链接1:Failed to download metadata for repo ‘AppStream’ [CentOS]
    参考链接2:CentOS 镜像
    更新:此解决方案已弃用,CentOS8环境无法执行示例程序,直接换用CentOS7即可
  4. 巨坑:千万不要用CentOS8作为Hadoop环境!!!
    在start-all时完全没问题,但是一旦运行示例程序,就会显示无法连接从机
    解决方案:换用CentOS7
  5. 报错:执行示例程序报错Cannot create directory /usr. Name node is in safe mode.
    原因:打开了安全模式
    解决方案:关闭安全模式,执行
    hdfs dfsadmin -safemode leave
    

折腾实录

本次折腾参考了这篇19年的文章:使用Docker搭建Hadoop集群(伪分布式与完全分布式)
注意,本文与上述参考文章有所不同(都是趟过的坑)

一、构建镜像

1. 准备JDK和Hadoop

  1. 创建对应目录并准备好JDK和Hadoop
    mkdir centos-hadoop
    cd centos-hadoop
    # 上传hadoop和jdk,略
    
    参考链接:
    Java Download 官网(自行选择合适版本)
    hadoop 官网(自行选择合适版本)
    jdk-8u321-linux-x64.tar.gz 官网下载链接
    hadoop-3.3.1.tar.gz 官网下载链接
    hadoop与jdk

2. 构建centos-hadoop镜像

  1. 编写Dockerfile

    sudo yum install vim
    vim Dockerfile    #这里docker build时缺省名为Dockerfile
    
  2. Dockerfile内容

    FROM centos:centos7
     
    # 安装openssh-server和sudo软件包,并且将sshd的UsePAM参数设置成no  
    RUN yum install -y openssh-server sudo
    RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
    #安装openssh-clients
    RUN yum install -y openssh-clients
    
    # 添加测试用户root,密码root,并且将此用户添加到sudoers里  
    RUN echo "root:root" | chpasswd
    RUN echo "root   ALL=(ALL)       ALL" >> /etc/sudoers
    RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
    RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
    # 启动sshd服务并且暴露22端口  
    RUN mkdir /var/run/sshd
    EXPOSE 22
    CMD ["/usr/sbin/sshd", "-D"]
    
    ADD jdk-8u321-linux-x64.tar.gz /usr/local/
    RUN mv /usr/local/jdk1.8.0_321 /usr/local/jdk1.8
    ENV JAVA_HOME /usr/local/jdk1.8
    ENV PATH $JAVA_HOME/bin:$PATH
    
    ADD hadoop-3.3.1.tar.gz /usr/local
    RUN mv /usr/local/hadoop-3.3.1 /usr/local/hadoop
    ENV HADOOP_HOME /usr/local/hadoop
    ENV PATH $HADOOP_HOME/bin:$PATH
    
  3. 构建镜像

    docker build -t centos-hadoop ./    # docker build  -t ImageName:TagName dir
    
  4. 查看镜像

    docker image ls
    

    centos-hadoop镜像创建成功

二、启动容器

网络结构分别为:

  • hadoop0:192.168.1.2
  • hadoop1:192.168.1.3
  • hadoop2:192.168.1.4
  1. 创建子网

    docker network create --subnet=192.168.1.0/24 hadoopnet
    
  2. 启动容器

    docker run -itd --name hadoop0 --net hadoopnet --ip 192.168.1.2 -p 8088:8088 -p 9870:9870 centos-hadoop #hadoop0对外开放端口8088
    docker run -itd --name hadoop1 --net hadoopnet --ip 192.168.1.3 centos-hadoop
    docker run -itd --name hadoop2 --net hadoopnet --ip 192.168.1.4 centos-hadoop
    
    docker ps # 查看刚刚启动的3个容器
    

三、集群搭建

ps:以下操作均是对hadoop0主节点配置

1. 进入容器

docker exec -it hadoop0 /bin/bash 

2. 配置主机名与IP映射(3个节点)

此时,在启动容器这一步时,docker容器的hadoopnet网络已经添加了主机名与IP映射的映射关系,因此不需要往hosts文件中添加ip和主机名的映射。
可以通过ping命令检查是否已有映射关系:

ping hadoop0
ping hadoop1
ping hadoop2

如果没ping通,可以尝试往hosts文件添加以下内容(hosts文件目录:/etc/hosts)

192.168.1.2     hadoop0
192.168.1.3     hadoop1
192.168.1.4     hadoop2

3. ssh免密登录

ssh-keygen
#剩下的一路回车即可

# 以下3条都不能省,请根据提示输入yes以及主机密码,开头我们设置的是root/root
ssh-copy-id hadoop0
ssh-copy-id hadoop1
ssh-copy-id hadoop2

4. hadoop的相关配置

进入/usr/local/hadoop/etc/hadoop目录,涉及的配置文件有:core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、workers

  1. hadoop-env.sh

    export JAVA_HOME=/usr/local/jdk1.8          # 修改JAVA_HOME(往该文件内添加即可)
    
  2. core-site.xml

    <configuration>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://hadoop0:9000</value>
            </property>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/usr/local/hadoop/tmp</value>
            </property>
             <property>
                     <name>fs.trash.interval</name>
                     <value>1440</value>
            </property>
    </configuration>
    
  3. hdfs-site.xml

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.permissions</name>
            <value>false</value>
        </property>
    </configuration>
    
  4. yarn-site.xml

    <configuration>
    
    <!-- Site specific YARN configuration properties -->
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>
            <property> 
                    <name>yarn.log-aggregation-enable</name> 
                    <value>true</value> 
            </property>
            <property>
                    <description>The hostname of the RM.</description>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>hadoop0</value>
            </property>
    </configuration>
    
  5. mapred-site.xml

    <configuration>
      <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
      </property>
      <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
      </property>
      <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
      </property>
    </configuration>
    

5. 格式化hadoop

进入进入到/usr/local/hadoop目录下
!!!格式化操作不能重复执行

bin/hdfs namenode -format

显示格式化成功

6. 完全分布式hadoop搭建

进入/usr/local/hadoop

  1. 修改workers文件
    (若为老版本的hadoop,则是slaves文件)
    删除原来的所有内容,修改为如下

    hadoop1
    hadoop2
    
  2. 拷贝至其他两个节点

    scp -rq /usr/local/hadoop/etc hadoop1:/usr/local/hadoop
    scp -rq /usr/local/hadoop/etc hadoop2:/usr/local/hadoop
    
  3. 添加变量
    进入到目录/usr/local/hadoop/sbin

    ## 在start-yarn.sh、stop-yarn.sh顶部添加
    YARN_RESOURCEMANAGER_USER=root
    HDFS_DATANODE_SECURE_USER=yarn
    YARN_NODEMANAGER_USER=root
    
    ## 在start-dfs.sh、stop-dfs.sh顶部添加
    HDFS_DATANODE_USER=root
    HDFS_DATANODE_SECURE_USER=hdfs
    HDFS_NAMENODE_USER=root
    HDFS_SECONDARYNAMENODE_USER=root
    

    若不进行变量的添加,会报错找不到变量。

  4. 启动hadoop分布式集群服务

    # 执行
    sbin/start-all.sh
    
  5. 若需要中止hadoop分布式集群服务

    # 执行
    sbin/stop-all.sh
    

7. 验证完全分布式集群是否正常

  1. hadoop0主节点需要有以下进程
    请添加图片描述

  2. hadoop1、hadoop2从节点需要有以下进程
    请添加图片描述

  3. 运示例程序
    运行计算PI示例程序,注意不同版本hadoop的路径可能不一样

    hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 10 10
    

通过已有镜像极速搭建

待完成…

  • 14
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
### 回答1: 要基于Docker搭建Hadoop集群,您需要遵循以下步骤: 1. 安装Docker:您需要在所有节点上安装Docker。可以通过Docker官方文档来了解如何在您的操作系统上安装Docker。 2. 创建Docker镜像:您需要创建包含HadoopDocker镜像。您可以使用Dockerfile来创建镜像,并在其中安装所需的软件包。 3. 创建Docker容器:一旦您创建了Docker镜像,您需要在每个节点上创建Docker容器。您可以使用Docker命令来创建容器。 4. 配置Hadoop集群:您需要配置Hadoop集群,以便每个节点都能够与其他节点通信。您需要编辑Hadoop配置文件,如core-site.xml和hdfs-site.xml,并指定节点的IP地址和端口号。 5. 启动Hadoop集群:最后,您需要启动Hadoop集群。您可以使用启动脚本启动Hadoop集群。 在完成这些步骤后,您应该已经成功地在基于DockerHadoop集群上设置了分布式计算环境。 ### 回答2: 随着大数据技术的发展,hadoop已经成为了很多企业的首选,但是hadoop的部署和维护是一件非常繁琐的事情,需要很多经验和技巧。为了简化这个过程,很多人开始尝试将hadoop集群部署在docker容器中。 Docker是一个开源的容器化平台,可以轻松地部署和运行各种应用程序。Docker的容器可以在任何运行Docker的机器上运行,这使得hadoop的集群可以很容易地部署在任何地方。 基于docker搭建hadoop集群的步骤如下: 1. 安装Docker 首先需要在每台机器上安装Docker。安装过程可以参考Docker官方文档。 2. 创建docker镜像 在第一台机器上创建一个docker镜像,这个镜像可以包含我们需要的hadoop环境。 可以通过Dockerfile创建这个镜像,并且在 Dockerfile 中指定需要的软件包和配置。这个镜像可以包含hadoop,jdk等组件。 3. 部署容器 在第一台机器上使用这个docker镜像创建一个容器,这个容器就是hadoop的NameNode。可以指定hadoop的配置文件,并且可以将hadoop的数据目录挂载到本地硬盘上。 同时,在其他机器上也创建容器,这些容器就是hadoop的DataNode。 4. 启动hadoop服务 启动NameNode容器后,需要进入容器内部,启动hadoop服务。使用hadoop dfsadmin -report 命令可以查看hadoop集群的状态。 5. 配置hadoop集群 hadoop的配置文件可以在NameNode容器内修改,也可以将配置文件挂载到容器内部。配置文件的修改可以通过修改Dockerfile或者手动修改容器内的文件来完成。 一些hadoop集群相关的配置信息需要在hadoop-env.sh,hdfs-site.xml和core-site.xml等文件中进行修改。 6. 测试hadoop集群 在hadoop集群启动后,可以使用hdfs dfs -ls / 命令来测试hadoop集群的正常运行。 基于docker搭建hadoop集群的优点在于部署和维护都非常方便,同时可以快速地扩展集群。Docker容器可以很容易地在不同的主机上运行,并且可以保证集群的统一性。 ### 回答3: Docker是一种轻量级的容器化技术,可以方便快捷地搭建、运行、迁移和管理软件应用,而Hadoop是目前广泛应用于大数据处理和分析的开源平台,使用Hadoop可以有效地解决数据分析和处理的瓶颈问题。基于Docker搭建Hadoop集群,可以实现快速部署与运维,提高集群的可维护性和可扩展性,同时也可以降低运行成本。 以下是基于Docker搭建Hadoop集群的步骤: 1. 安装Docker:首先需要在主机上安装Docker运行环境。 2. 下载Hadoop镜像:从Docker Hub上下载Hadoop镜像,并创建一个自定义的网络。 3. 创建Hadoop节点容器:创建一个Hadoop节点容器,并在其内部配置Hadoop环境变量。 4. 配置Hadoop:配置Hadoop集群的核心配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml等。 5. 启动Hadoop集群:使用start-dfs.sh和start-yarn.sh脚本启动Hadoop集群,查看配置是否生效。 6. 部署应用程序:将应用程序放入Hadoop集群中的HDFS文件系统,使用yarn命令启动应用程序。 7. 监控和维护:使用Hadoop的监控和管理工具,对集群进行监控和维护。 基于Docker搭建Hadoop集群具有很多优点,如环境准备简单、扩展性强、可移植性高、资源利用率高等,同时也需要注意安全性和稳定性的问题。在实际应用中,可以根据实际需求,对集群进行灵活配置和管理,以便更好地支持大数据处理和分析任务的需求。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值