通过docker搭建hadoop集群

  • 启动一台虚拟机 centos7

  • 安装好yum源

  • 先下载一个centos7镜像作为基础镜像

    docker pull docker.io/ansible/centos7-ansible
    
  • 运行该镜像

    docker run -tid --name hadoop_cluster_1 --privileged=true -t docker.io/ansible/centos7-ansible /usr/sbin/init
    
  • 进入该镜像

    docker ps -a
    docker exec -it 1e476c9b81ab /bin/bash
    
  • 修改容器密码:

    passwd
    123456
    123456
    
  • yum安装一些基础软件

    yum -y install vim wget screen openssh-server openssh-clients ifconfig ip initscripts tcping 
    
  • 修改完成后验证一下

    systemctl restart sshd.service
    ssh 127.0.0.1
    
  • 安装jdk

    yum -y install java-11-openjdk
    yum -y install java-11-openjdk-devel
    
  • ssh免密登录

    ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
    cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
    
  • 用ssh验证一下

    ssh 127.0.0.1
    
  • 增加hadoop用户

    useradd hadoop
    passwd hadoop
    
  • 下载hadoop安装包,上传到宿主机

    wget https://archive.apache.org/dist/hadoop/core/hadoop-2.9.1/hadoop-2.9.1.tar.gz
    
  • 将安装包上传到容器中

    docker ps -a 
    docker cp /opt/install/hadoop-2.9.1.tar.gz ecef8319d2c8:/opt/install
    
  • 进入容器

    docker exec -it 7893fe714427 /bin/bash
    
  • 进入/usr/local文件夹创建一个hadoop文件夹,将下载好的hadoop-2.7.3.tar.gz解压,复制到hadoop文件加下

    cd /opt/install/
    tar -zxvf hadoop-2.9.1.tar.gz -C ./
    cd /usr/local/
    mkdir hadoop
    cp -r /opt/install/hadoop-2.9.1 hadoop/
    
  • 配置hadoop环境变量

    vim /etc/profile
    JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.7.10-4.el7_8.x86_64/
    JRE_HOME=/usr/lib/jvm/jre-11-openjdk-11.0.7.10-4.el7_8.x86_64/
    
    HADOOP_HOME=/usr/local/hadoop/hadoop-2.9.1
    CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    
    export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH
    
  • 加载环境变量,使配置生效

    source /etc/profile
    
  • 执行hadoop命令确认可以使用

    hdfs dfs -ls /
    
  • hadoop环境变量配置成功之后,需要进入到hadoop_home同级目录下为hadoop创建几个工作目录。

    cd /usr/local/hadoop/
    mkdir tmp
    mkdir -p hdfs/name
    mkdir hdfs/data
    
  • 修改相关配置文件

    cd /usr/local/hadoop/hadoop-2.9.1/etc/hadoop
    # 修改hadoop-env.sh,指定JAVA_HOME
    vim hadoop-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.7.10-4.el7_8.x86_64/
    # 修改yarn-env.sh,重新指定JAVA_HOME
    vim yarn-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-11.0.7.10-4.el7_8.x86_64/
    # 修改core-site.xml
    vim core-site.xml
    <configuration>
            <property>
                    <name>fs.default.name</name>
                    <value>hdfs://master:9000</value>
            </property>
            <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://master:9000</value>
            </property>
            <property>
                    <name>hadoop.tmp.dir</name>
                    <value>/usr/local/hadoop/tmp</value>
            </property>
    </configuration>
    # 修改hdfs-site.xml
    vim hdfs-site.xml
    <configuration>
            <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>file:/usr/local/hadoop/hdfs/name</value>
            </property>
            <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>file:/usr/local/hadoop/hdfs/data</value>
            </property>
            <property>
                    <name>dfs.replication</name>
                    <value>3</value>
                    <description>副本个数(每个本分割的文件会存储在几台datanode上,默认是3),这个数量应该小于datanode机器数</description>
            </property>
            <property>
                    <name>dfs.permissions.enabled</name>
                    <value>false</value>
            </property>
    </configuration>
    # 修改mapred-site.xml
    cp mapred-site.xml.template mapred-site.xml
    vim mapred-site.xml
    <configuration>
            <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                    <description>mapreduce's framework is yarm</description>
            </property>
    </configuration>
    # 修改yarn-site.xml
    vim yarn-site.xml
    <configuration>
    <!-- Site specific YARN configuration properties -->
            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>master</value>
                    <description>yarn resourcemanager hostname is master</description>
            </property>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                    <description>just mapreduce_shuffle can run MapReduce</description>
            </property>
    </configuration>
    # 修改slaves,添加datanode的hostname
    vim slaves
    node01
    node02
    node03
    
  • 安装hive

    • 使用默认的derby作为元数据库

    • 下载安装包

      https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz
      
    • 将安装包上传到宿主机上,并且拷贝到容器中

      # 退出容器后执行
      docker cp apache-hive-2.3.7-bin.tar.gz 412b869263bf:/opt/install
      
    • 进入容器解压安装包

      tar -zxvf apache-hive-2.3.7-bin.tar.gz -C ./
      
    • 将解压好的目录拷贝到/usr/local/hadoop

      cd /usr/local/hadoop
      cp -r /opt/install/apache-hive-2.3.7-bin ./
      
    • 删除安装包和多余目录

      rm -rf /opt/install/*
      
    • 修改配置文件

      cp /usr/local/hadoop/apache-hive-2.3.7-bin/conf/hive-default.xml.template /usr/local/hadoop/apache-hive-2.3.7-bin/conf/hive-site.xml
      cd /usr/local/hadoop/apache-hive-2.3.7-bin/conf
      mkdir -p /usr/local/hadoop/hive/java
      vim hive-site.xml
      # 在最前面加上这些配置:
        <property>
          <name>system:java.io.tmpdir</name>
          <value>/usr/local/hadoop/hive/java</value>
        </property>
        <property>
          <name>system:user.name</name>
          <value>${user.name}</value>
        </property>
      # hive.metastore.schema.verification改为false
      
    • 配置环境变量

      vim /etc/profile
      # 在文本最后加上
      export HIVE_HOME="/usr/local/hadoop/apache-hive-2.3.7-bin"
      # 设置PATH变量
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin
      
    • 加载环境变量

      source /etc/profile
      
    • 初始化hive数据库

      schematool -initSchema -dbType derby
      
    • 初始化成功标志:

      Initialization script completed
      schemaTool completed
      
    • 后台启动metastore服务

      hive --service metastore &
      
  • 安装完基础环境后,可以将镜像保存成一个新的镜像

    # 退出容器后执行
    docker commit hadoop_cluster_1 tfws/hadoop-baseenv:v1.2
    
  • 通过如下命令查看容器是否保存为一个新的镜像了

    docker image ls
    
  • 创建master节点,即namenode节点

    docker run -tid --name hadoop-master -p 50010:50010 -p 50020:50020 -p 50070:50070 -p 50075:50075 -p 50090:50090 -p 8020:8020 -p 9000:9000 -p 10020:10020 -p 8030:8030 -p 19888:19888 -p 8031:8031 -p 8032:8032 -p 8033:8033 -p 8040:8040 -p 8042:8042 -p 8088:8088 -p 49707:49707 -p 2122:2122 -p 9083:9083 -p 10000:10000 -p 7077:7077 -p 8080:8080 -v /opt/install:/opt/install -h master tfws/hadoop-baseenv:v1.2 /usr/sbin/init
    
  • 创建node01节点,即datanode节点

    docker run -tid --name hadoop-node01 -p 50010 -p 50020 -p 50070 -p 50075 -p 50090 -p 8020 -p 9000 -p 10020 -p 8030 -p 19888 -p 8031 -p 8032 -p 8033 -p 8040 -p 8042 -p 8088 -p 49707 -p 2122 -p 9083 -p 10000 -p 7077 -p 8080 -v /opt/install:/opt/install -h node01 tfws/hadoop-baseenv:v1.2 /usr/sbin/init
    
  • 创建node02节点,即datanode节点

    docker run -tid --name hadoop-node02 -p 50010 -p 50020 -p 50070 -p 50075 -p 50090 -p 8020 -p 9000 -p 10020 -p 8030 -p 19888 -p 8031 -p 8032 -p 8033 -p 8040 -p 8042 -p 8088 -p 49707 -p 2122 -p 2122 -p 9083 -p 10000 -p 7077 -p 8080 -v /opt/install:/opt/install -h node02 tfws/hadoop-baseenv:v1.2 /usr/sbin/init
    
  • 创建node03节点,即datanode节点

    docker run -tid --name hadoop-node03 -p 50010 -p 50020 -p 50070 -p 50075 -p 50090 -p 8020 -p 9000 -p 10020 -p 8030 -p 19888 -p 8031 -p 8032 -p 8033 -p 8040 -p 8042 -p 8088 -p 49707 -p 2122 -p 2122 -p 9083 -p 10000 -p 7077 -p 8080 -v /opt/install:/opt/install -h node03 tfws/hadoop-baseenv:v1.2 /usr/sbin/init
    
  • 依次进入四个容器,配置ip映射

    docker exec -it hadoop-master /bin/bash
    docker exec -it hadoop-node01 /bin/bash
    docker exec -it hadoop-node02 /bin/bash
    docker exec -it hadoop-node03 /bin/bash
    vim /etc/hosts
    172.17.0.2      mysql_server
    172.17.0.3      master
    172.17.0.4      node01
    172.17.0.5      node02
    172.17.0.6      node03
    
  • 如果重启了容器,需要对容器重新source环境变量

  • 检查ssh服务是否启动了,如果没有启动,需要启动起来

    systemctl status sshd
    systemctl restart sshd
    
  • 完成以上操作后在master上执行start-all.sh启动hadoop

    # 第一次启动时,需要格式化
    hadoop namenode -format
    bash /usr/local/hadoop/hadoop-2.9.1/sbin/start-all.sh
    
  • 启动失败?

    The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
    
  • 解决办法,在master节点ssh每个node之后就可以了,需要每两个节点之间都互相登录一遍

  • 基础镜像可能少安装的rpm

    ntpd
    java-11-openjdk-devel
    基础镜像时间改为CST的
    
  • 到每个容器上使用jps,确认有如下进程

    [root@master sbin]# jps
    465 NameNode
    844 ResourceManager
    1118 Jps
    671 SecondaryNameNode
    [root@node01 logs]# jps
    401 NodeManager
    282 DataNode
    524 Jps
    [root@node02 logs]# jps
    516 Jps
    277 DataNode
    391 NodeManager
    [root@node03 logs]# jps
    482 Jps
    244 DataNode
    358 NodeManager
    
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 要基于Docker搭建Hadoop集群,您需要遵循以下步骤: 1. 安装Docker:您需要在所有节点上安装Docker。可以通过Docker官方文档来了解如何在您的操作系统上安装Docker。 2. 创建Docker镜像:您需要创建包含HadoopDocker镜像。您可以使用Dockerfile来创建镜像,并在其中安装所需的软件包。 3. 创建Docker容器:一旦您创建了Docker镜像,您需要在每个节点上创建Docker容器。您可以使用Docker命令来创建容器。 4. 配置Hadoop集群:您需要配置Hadoop集群,以便每个节点都能够与其他节点通信。您需要编辑Hadoop配置文件,如core-site.xml和hdfs-site.xml,并指定节点的IP地址和端口号。 5. 启动Hadoop集群:最后,您需要启动Hadoop集群。您可以使用启动脚本启动Hadoop集群。 在完成这些步骤后,您应该已经成功地在基于DockerHadoop集群上设置了分布式计算环境。 ### 回答2: 随着大数据技术的发展,hadoop已经成为了很多企业的首选,但是hadoop的部署和维护是一件非常繁琐的事情,需要很多经验和技巧。为了简化这个过程,很多人开始尝试将hadoop集群部署在docker容器中。 Docker是一个开源的容器化平台,可以轻松地部署和运行各种应用程序。Docker的容器可以在任何运行Docker的机器上运行,这使得hadoop的集群可以很容易地部署在任何地方。 基于docker搭建hadoop集群的步骤如下: 1. 安装Docker 首先需要在每台机器上安装Docker。安装过程可以参考Docker官方文档。 2. 创建docker镜像 在第一台机器上创建一个docker镜像,这个镜像可以包含我们需要的hadoop环境。 可以通过Dockerfile创建这个镜像,并且在 Dockerfile 中指定需要的软件包和配置。这个镜像可以包含hadoop,jdk等组件。 3. 部署容器 在第一台机器上使用这个docker镜像创建一个容器,这个容器就是hadoop的NameNode。可以指定hadoop的配置文件,并且可以将hadoop的数据目录挂载到本地硬盘上。 同时,在其他机器上也创建容器,这些容器就是hadoop的DataNode。 4. 启动hadoop服务 启动NameNode容器后,需要进入容器内部,启动hadoop服务。使用hadoop dfsadmin -report 命令可以查看hadoop集群的状态。 5. 配置hadoop集群 hadoop的配置文件可以在NameNode容器内修改,也可以将配置文件挂载到容器内部。配置文件的修改可以通过修改Dockerfile或者手动修改容器内的文件来完成。 一些hadoop集群相关的配置信息需要在hadoop-env.sh,hdfs-site.xml和core-site.xml等文件中进行修改。 6. 测试hadoop集群 在hadoop集群启动后,可以使用hdfs dfs -ls / 命令来测试hadoop集群的正常运行。 基于docker搭建hadoop集群的优点在于部署和维护都非常方便,同时可以快速地扩展集群。Docker容器可以很容易地在不同的主机上运行,并且可以保证集群的统一性。 ### 回答3: Docker是一种轻量级的容器化技术,可以方便快捷地搭建、运行、迁移和管理软件应用,而Hadoop是目前广泛应用于大数据处理和分析的开源平台,使用Hadoop可以有效地解决数据分析和处理的瓶颈问题。基于Docker搭建Hadoop集群,可以实现快速部署与运维,提高集群的可维护性和可扩展性,同时也可以降低运行成本。 以下是基于Docker搭建Hadoop集群的步骤: 1. 安装Docker:首先需要在主机上安装Docker运行环境。 2. 下载Hadoop镜像:从Docker Hub上下载Hadoop镜像,并创建一个自定义的网络。 3. 创建Hadoop节点容器:创建一个Hadoop节点容器,并在其内部配置Hadoop环境变量。 4. 配置Hadoop:配置Hadoop集群的核心配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml等。 5. 启动Hadoop集群:使用start-dfs.sh和start-yarn.sh脚本启动Hadoop集群,查看配置是否生效。 6. 部署应用程序:将应用程序放入Hadoop集群中的HDFS文件系统,使用yarn命令启动应用程序。 7. 监控和维护:使用Hadoop的监控和管理工具,对集群进行监控和维护。 基于Docker搭建Hadoop集群具有很多优点,如环境准备简单、扩展性强、可移植性高、资源利用率高等,同时也需要注意安全性和稳定性的问题。在实际应用中,可以根据实际需求,对集群进行灵活配置和管理,以便更好地支持大数据处理和分析任务的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值