利用docker搭建haood集群,以及常见问题的总结与分析

11 篇文章 1 订阅
5 篇文章 0 订阅
本文详述了如何使用Docker容器技术搭建Hadoop伪分布式系统,包括环境配置、JDK与Hadoop安装、环境变量设定及配置文件修改等关键步骤。并介绍了如何构建分布式集群,以及解决启动过程中遇到的问题。
摘要由CSDN通过智能技术生成

前言

相信很多码友们也从事大数据行业,我接触大数据也有一段时间了,之前是在本机上利用Vmware搭建hadoop集群,随着时间的推移,发现电脑和人一样,到了年龄,身体一天不如一天。所以决定今天决定利用docker容器进行搭建一套伪分布式系统。如果没有了解过docker,下章我将会对docker的入门进行做一些说明,这里先普及一下什么是docker.

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。

简而言之,就是一个简化的linux系统,麻雀虽小,五脏俱全,我们可以在docker中进行部署各种环境,它们存活于实体机器或虚拟机中,相互独立,互不影响。同时我们可以建立一个镜像作为docker容器的模板,这样就可以避免了很多重复的安装系统的操作。

搭建hadoop环境

我们利用centos6创建一个基础的docker容器,命令如下:

docker run -it --name big-data -v /Users/weidianlun/docker/data:/User/weidianlun/docker/data/inner-data  centos:6.6 /bin/bash

–name 后的参数为容器的名字,-v 表示会将本地文件夹挂在到容器的执行文件夹中。

安装jdk
安装ssh、vi服务
yum install vim-enhanced

由于我们用的是多台docker容器,所以多机器交互,避免不了免密登录,所以执行如下命令。

yum install openssh-server -y
yum install openssh-clients -y

如果已经安装过了,我们可以先开启,然后再启动ssh服务

/etc/init.d/sshd start
service sshd start
jdk install
  • 下载jdk 尽量选择jdk8+
  • 上传jdk至linux,然后上传到docker (我这里用的是mac,所以直接下载然后上传到docker)
  • 查看docker的id
    命令如下:
docker cp /Users/weidianlun/Downloads/jdk-8u181-linux-x64.tar.gz {dockerid}:/

eg:
将本地文件上传到id为123422dda3242的容器的指定目录中

docker cp /Users/weidianlun/Downloads/jdk-8u181-linux-x64.tar.gz 123422dda3242:/usr/local/jdk

上边命令标识从目标目录上传到了docker的根目录,

  • 解压目录
tar -zxf jdk-8u181-linux-x64.tar.gz
  • 配置环境变量
echo -e "\n\nexport JAVA_HOME=自己jdk的解压后的目录" | tee -a /etc/profile

echo -e “\nexport PATH=$PATH:$JAVA_HOME/bin” | tee -a /etc/profile

  • 使得配置文件生效
 source /etc/profile
  • 验证 jdk是否安装完成
java -version 
配置ssh免密登录
  • 通过ssh-keygen生成公钥和私钥加密文件,再将公钥文件考入authorized_keys中
`ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys`

install hadoop

  • 新建文件夹命令如下:
 mkdir /usr/local/hadoop
  • 将下载好的hadoop组件上传到docker容器的hadoop目录下。
  • 配置环境变量
JAVA_HOME=/usr/local/jdk1.8.0_181
JRE_HOME=/usr/local/jdk1.8.0_181/jre
HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH
  • 使其生效
source /etc/profile
配置hadoop相关目录
  • 新建目录
cd /usr/local/hadoop/
mkdir tmp
mkdir -p hdfs/name
mkdir hdfs/data

如果在不存在的hdfs文件夹下边创建name文件夹会失败;这里使用-p参数,在创建name文件的时候会连同上级目录hdfs一起创建

修改配置文件

要想真正的运行hadoop应用还需要修改hadoop运行参数;进入/usr/local/hadoop/hadoop-2.7.3/etc/hadoop文件夹,需要修改的可执行文件与配置文件包括:hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。
这些文件目录都在etc/hadoop/下

  • 修改hadoop-env.sh
JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8x/
  • 修改yarn-env.sh
JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/
  • 修改core-site.xml
<configuration>
        <property>
                <name> fs.default.name </name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
        </property>
</configuration>
  • 修改hdfs-site.xml
<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/hdfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>副本个数(每个本分割的文件会存储在几台datanode上,默认是3),这个数量应该小于datanode机器数</description>
        </property>
        <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
        </property>
</configuration>
  • 修改mapred-site.xml

在/usr/local/hadoop/hadoop-2.7.3/etc/hadoop目录下没有mapred-site.xml但是有一个文件mapred-site.xml.template;执行cp mapred-site.xml.template mapred-site.xml复制一个,修改内容如下

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <description>mapreduce's framework is yarm</description>
        </property>
</configuration>
  • 修改yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>master</value>
                <description>yarn resourcemanager hostname is master</description>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>just mapreduce_shuffle can run MapReduce</description>
        </property>
</configuration>

上边就是完成的安装步骤以及修改配置的流程,接下来我们将以此作为镜像,copy多个容器进行搭建分布式集群。

集群的搭建

docker ps 查看当前运行的容器,找到我们刚才制作好的容器big-data的id。通过big-data制作一个新的镜像。

docker commit 24dad453dad big-data/hadoop-distributed-base

通过docker images可以查看所有的镜像,我们新的镜像来构建分布式系统。

  • 创建master 节点 namenode
docker run -it --name hadoop-master \
-p 50010:50010 \
-p 50020:50020 \
-p 50070:50070 \
-p 50075:50075 \
-p 50090:50090 \
-p 8020:8020 \
-p 9000:9000 \
-p 10020:10020 \
-p 8030:8030 \
-p 19888:19888 \
-p 8031:8031 \
-p 8032:8032 \
-p 8033:8033 \
-p 8040:8040 \
-p 8042:8042 \
-p 8088:8088 \
-p 49707:49707 \
-p 2122:2122 \
-v /Users/weidianlun/docker/data:/User/weidianlun/docker/data/inner-data \
-h master big-data/hadoop-distributed-base /bin/bash
  • 创建node1(datanode节点)
docker run -it --name hadoop-node1 \
-p 50010 \
-p 50020 \
-p 50070 \
-p 50075 \
-p 50090 \
-p 8020 \
-p 9000 \
-p 10020 \
-p 8030 \
-p 19888 \
-p 8031 \
-p 8032 \
-p 8033 \
-p 8040 \
-p 8042 \
-p 8088 \
-p 49707 \
-p 2122 \
-v /Users/weidianlun/docker/data:/User/weidianlun/docker/data/inner-data \
-h node3 bigdata/hadoop-distributed-base /bin/bash

node2、node3同理,注意容器的名字–name hadoop-node1和host的名字-h node1

到这里分布式的hadoop集群环境已经准备好了,但是要真正运行,还需要做一些细微的设置,如下:
在master的hosts文件里配置node1~3的地址信息,在node节点hosts上配置master的地址信息。因为启动hadoop是,会访问node节点
如果是重启了docker容器,需要执行 source /etc/profile 来使hadoop环境变量生效
检查ssh服务是否启动,如果没启动需要执行service ssd start启动ssh服务
完成以上操作后在master上执行start-all.sh启动hadoop(==注:==如果是第一次启动hadoop,需要先执行hadoop namenode -format);停止hadoop执行stop-all.sh
启动成功之后分别在master和node节点上执行jps -l命令,如下图:
在这里插入图片描述在这里插入图片描述
通过上边我们就可以认定启动成功,在浏览器中输入http://localhost:50070

在这里插入图片描述
在这里插入图片描述

问题分析

如果live node 为0 我们可以在datanode 中看日志,主要可能原因为集群的cluster-id与namenode不一致,我们可以将namenode中的cluster-id复制后替换所有的datanode中的clusterid。这是我遇到的问题和解决方案,根本原因是多次格式化了namenode,导致cluster-id在namenode中发生了变化导致的。

最后了,如果有用可以点个赞以及加个关注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

uniquewdl

匆忙的人生,总有你喜欢的文章

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值