docker搭建hadoop集群(为分布式、完全分布式)

第1章 写在前面必读

1.1 Hadoop生态简单说明

说明:hadoop只是一个存储数据的平台,mapreduce是一个计算框架,需要编程人员去编写处理数据的程序。然后hadoop是一个生态,就是说在其上还运行着hbase数据库,sqoop,shark等等工具,这样才能将hadoop存储的数据加以利用。Hbase是一种时序数据库,可用来往hadoop写数据,并通过hadoop读取数据,搭建这些的时候还要用到zookeeper软件去管理消息。总之hadoop生态涉及的东西太多,学习起来复杂,但是并不难,就是多看官网,理清概念。

1.2 本文的目的

如果想在一台电脑上搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机。但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的。这个时候我们可以使用Docker。Docker可以看做是一种轻量级的虚拟机,占用资源少,用起来和传统的虚拟机很像,使用的时候可以类比VMware或VirtualBox。
本文不能让你精通Docker,但能让你快速上手,并搭建好这个集群,前提是你对Hadoop和Linux有所了解。

第2章 准备工作

2.1 准备Docker宿主机

目前Docker只能运行在内核版本为3.10或以上的64位Linux上。安装Docker的Linux系统称为Docker的宿主机。如果你的系统不符合,可以先安装一台符合要求的虚拟机,然后再在这个虚拟机上使用Docker。我的笔记本是Windows系统,装了一台64位CentOS7.3虚拟机做演示。由于要将10个节点都跑在一台虚拟机上,所以给这台虚拟机分配的资源不能太少,否则会有问题。虽然Docker比虚拟机省了不少资源,但Hadoop需要的资源省不了啊。我给分配了2个核,4G内存,这比用10台虚拟机需要的资源还是小很多的。另外因为只需要一台Linux,所以在笔记本上装双系统也是可以的。

2.2 准备相关软件

JDK使用jdk-8u181-linux-x64.tar.gz
Hadoop使用hadoop-2.8.0.tar.gz
将JDK和Hadoop提前下载并减压,放到Docker宿主机上备用。
在这里插入图片描述

第3章 安装Docker

现在Docker分为社区版Docker CE和企业版Docker EE。Docker CE免费,Docker EE收费。Docker CE又分为Docker CE Edge和Docker CE Stable。Docker CE Edge每1个月发布一个版本,Docker CE Stable每3个月发布一个版本。Stable表示稳定版,所以下面只介绍Docker CE Stable。

3.1 安装yum-utils

yum install -y yum-utils

3.2 添加Docker CE的yum源

yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

在这里插入图片描述

3.3 更新yum包索引

yum makecache fast

3.4 安装Docker CE

yum install docker-ce -y

3.5 启动Docker

systemctl start docker

3.6 查看Docker版本

docker -v
默认安装的是最新版本,我们可以看到当前最新版本是Docker version 17.03.1-ce, build c6d412e。

3.7 去掉sudo

对于非root用户,很多Docker命令都必须用sudo才能正常执行。比如不用sudo运行刚才的hello-world示例会出现下面的错误提示:

老用sudo挺麻烦的,下面介绍解决的办法。Docker在安装的时候会生成一个叫docker的用户组,只要把你使用的用户加到这个组里就能免sudo了。
下面我们来加入docker组
useradd zld
usermod -aG docker zld
然后退出当前shell,重新登录一下,以后就不用sudo了。

3.8 Docker镜像基本操作

Docker的服务器上有很多镜像,分为两类,一类是Docker官方的,另一类是普通用户上传的。Docker把他们放镜像的地方叫做Docker Hub。

1.搜索镜像

docker search centos

在这里插入图片描述

在搜索结果列表中OFFICIAL列中有[OK]的表示是官方的镜像。我们看到第一个就是官方的。

3.9 创建并运行容器

docker run -it -h pseudo-distributed --name pseudo-distributed centos

说明:
docker run 表示创建一个容器并运行。
-it  表示容器运行后直接进入容器内部的命令行。此时就可以像操作虚拟机一样操作这个容器了。
-h  表示容器的主机名hostname,和虚拟机的hostname一样。如果不指定,Docker会用CONTAINER ID来作为hostname。
–name 表示容器的名称。这个前面已经提到了,如果自己不指定,Docker会自动分配一个名称。不过还是自己指定的更有意义。
其中主机名和容器名一不一样都行,我这里是给了一样的,都是pseudo-distributed。
最后一个参数centos是镜像名称,表示该容器用哪个镜像创建。
这个过程类似于用ISO文件装系统。

3.10 退出当前容器并保持其继续运行

快捷键Ctrl+p+q

3.11 进入正在运行的容器

docker attach pseudo-distributed

3.12 退出当前容器并停止其运行

exit

3.13 启动已停止运行的容器

docker start -i pseudo-distributed

3.14 关闭正在运行的容器

docker stop pseudo-distributed

第4章 搭建Hadoop伪分布模式

我们先用前面创建的这个容器来搭建Hadoop伪分布模式做测试,测试成功后再搭建完全分布式集群。

4.1 SSH

这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装。
Hadoop需要SSH,但容器没有自带,需要我们安装。
安装SSH
yum -y install openssh-clients openssh-server

生成3个key文件
ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key
一路回车

ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key
一路回车

ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key
一路回车

启动sshd
/usr/sbin/sshd

修改root密码
因为默认的密码不知道,我们重新设置一下。
passwd root

设置ssh免密登录到本机
ssh-keygen
一路回车

ssh-copy-id localhost
输入root密码

ssh localhost
免密登录成功
exit
退回到刚才的shell中。

4.2 which

运行hadoop需要which命令,同样容器没有自带,需要我们安装。
yum -y install which

4.3 文件复制

下面我们将已经提前准备好的JDK和Hadoop从宿主机上复制到容器中。注意,复制操作要在Docker宿主机上进行。
docker cp /opt/jdk1.8.0_181/ / pseudo-distributed:/root/
docker cp /opt/hadoop-2.8.0/ pseudo-distributed:/root/
在容器中可以看到JDK和Hadoop已复制到位。

4.4 配置环境变量并在容器启动时启动sshd

在/etc/profile.d中新建一个run.sh文件
在run.sh文件中写入下面6行内容:
export JAVA_HOME=/root/jdk1.8.0_181
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin
export HADOOP_HOME=/root/hadoop-2.8.0
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin: H A D O O P H O M E / s b i n e x p o r t H A D O O P C O N F D I R = HADOOP_HOME/sbin export HADOOP_CONF_DIR= HADOOPHOME/sbinexportHADOOPCONFDIR=HADOOP_HOME/etc/hadoop
/usr/sbin/sshd

用exit命令退出容器,重新启动并进入容器,上面配置的环境变量会生效,sshd也会启动。

4.5 hadoop伪分布式配置

1、配置hadoop-env.sh

将export JAVA_HOME=${JAVA_HOME}中的${JAVA_HOME}替换为具体路径,这里为export JAVA_HOME=/root/jdk1.8.0_181。

2、配置core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

3、配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

4、配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

5、配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

6、启动伪分布集群并运行wordcount示例程序

准备测试数据
在/root目录底下新建一个input文件夹,在这个文件夹中新建一个test.txt文件,里面随便写点单词,然后将该文件多复制几份,我这里复制了5份。

4.6 格式化namenode

hdfs namenode -format

4.7 启动HDFS

start-dfs.sh

4.8 启动YARN

start-yarn.sh

4.9 查看相关进程是否都启动

jps
如有以下5个进程,说明启动成功。
DataNode
NodeManager
NameNode
SecondaryNameNode
ResourceManager

4.10 将测试数据复制到HDFS中

hdfs dfs -put /root/input /

4.11 运行wordcount示例程序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

4.12 查看输出结果

hdfs dfs -cat /output/part-r-00000
从截图可以看出输出正确。伪分布式测试完毕。

第5章 搭建Hadoop完全分布式集群

5.1 集群规划

1个NameNode节点
1个SecondaryNameNode节点
1个ResourceManager节点
1个JobHistory节点
5个Slave节点
1个Client节点

其中Slave节点包含DataNode和NodeManager两种角色。
Client节点是用来操作的节点,所有操作都尽量在这个节点上进行。
以上共10个节点,7种角色。

5.2 将上面的伪分布式容器打包成镜像

理论上,我们只要将上面的伪分布式容器复制10份,然后改改配置文件就行了。但是Docker容器不能直接复制,需要先打包成镜像,然后用这个镜像生成10个新的容器。
命令如下:
docker commit -a “zld” -m “Hadoop在centos上搭建的伪分布模式。” pseudo-distributed hadoop-centos:v1
-a 表示作者。
-m 表示对该镜像的说明。
pseudo-distributed 被打包容器的名称
hadoop-centos:v1 生成镜像的名称及版本
需要知道的是,因为这个被打包的容器是通过centos镜像创建的,所以由该容器打包成的新镜像也包含了centos镜像。

5.3 创建网络

docker network create hadoop_nw
这里新建了一个叫hadoop_nw的网络,后面将10个Hadoop节点容器都加入到该网络,就能相互间通信了。而且不需要配置hosts文件,直接通过容器名称即可访问。
docker network ls
通过该命令可以查看所有的网络,除了我们刚创建的hadoop_nw网络,其它都是安装Docker时自动生成的,在本文中不用管它们。

5.4 用新生成的镜像创建10个容器

docker run -itd --network hadoop_nw -h namenode --name namenode -p 50070:50070 hadoop-centos:v1

docker run -itd --network hadoop_nw -h secondarynamenode --name secondarynamenode hadoop-centos:v1

docker run -itd --network hadoop_nw -h resourcemanager --name resourcemanager -p 8088:8088 hadoop-centos:v1

docker run -itd --network hadoop_nw -h jobhistory --name jobhistory -p 19888:19888 hadoop-centos:v1

docker run -itd --network hadoop_nw -h slave1 --name slave1 hadoop-centos:v1

docker run -itd --network hadoop_nw -h slave2 --name slave2 hadoop-centos:v1

docker run -itd --network hadoop_nw -h slave3 --name slave3 hadoop-centos:v1

docker run -itd --network hadoop_nw -h slave4 --name slave4 hadoop-centos:v1

docker run -itd --network hadoop_nw -h slave5 --name slave5 hadoop-centos:v1

docker run -itd --network hadoop_nw -h client --name client hadoop-centos:v1

-itd     表示打开终端但不进入
–network  表示加入到哪个网络
-p      表示端口映射
从上面可以看到namenode、resourcemanager和jobhistory这3个节点做了端口映射。端口映射的作用是将Docker宿主机的某个端口映射到容器的某个端口上,这样我们通过访问Docker宿主机的这个端口就能间接访问到相应的容器端口了。就像从外网访问内网中的某台机器一样。我们在后面通过浏览器查看集群信息的时候会用到。

5.5 修改Hadoop配置文件

我们在client节点修改,然后复制到其它节点。

1、配置core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://namenode:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/root/hadoop-2.8.0/data</value>
    </property>
</configuration>

2、配置hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>secondarynamenode:50090</value>
    </property>
</configuration>

3、配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>jobhistory:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>jobhistory:19888</value>
    </property>
</configuration>

4、配置yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>resourcemanager</value>
    </property>
</configuration>

5、配置slaves文件

cat slaves
slave1
slave2
slave3
slave4
slave5

6、配置节点间SSH免密登录

在client节点执行:

ssh-copy-id namenode
ssh-copy-id secondarynamenode
ssh-copy-id resourcemanager
ssh-copy-id jobhistory
ssh-copy-id slave1
ssh-copy-id slave2
ssh-copy-id slave3
ssh-copy-id slave4
ssh-copy-id slave5

在resourcemanager节点执行:

ssh-copy-id slave1
ssh-copy-id slave2
ssh-copy-id slave3
ssh-copy-id slave4
ssh-copy-id slave5

7、复制配置文件到所有节点

在client节点执行:

scp -r $HADOOP_HOME/etc/hadoop namenode:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop secondarynamenode:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop resourcemanager:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop jobhistory:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop slave1:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop slave2:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop slave3:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop slave4:$HADOOP_HOME/etc
scp -r $HADOOP_HOME/etc/hadoop slave5:$HADOOP_HOME/etc

5.6 启动Hadoop集群

在client节点执行:

1、格式化namenode

ssh namenode "hdfs namenode -format"

2、启动HDFS集群

start-dfs.sh

3、启动YARN集群

ssh resourcemanager "start-yarn.sh"

4、启动JobHistory

ssh jobhistory "mr-jobhistory-daemon.sh --config $HADOOP_CONF_DIR start historyserver"

5.7 在浏览器中查看集群信息

由于指定过相应容器的端口映射,我在我的Windows上用浏览器访问Docker宿主机相应的端口就能访问到容器。
HDFS http://Docker宿主机IP:50070/
YARN http://Docker宿主机IP:8088/
jobhistory http://Docker宿主机IP:19888/
从web上可以看到集群正常:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

5.8 运行wordcount示例程序

1、将测试数据复制到HDFS中

hdfs dfs -put /root/input /

2、运行wordcount示例程序

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

3、查看输出结果

hdfs dfs -cat /output/part-r-00000

第6章 Docker搭建zookeeper集群

6.1 创建centos容器

docker run -it -h pseudo-distributed --name pseudo-distributed centos

6.2 进入正在运行的容器

docker attach  pseudo-distributed

6.3 SSH

这个centos容器可以看做是一个非常精简的系统,很多功能没有,需要自己安装。
Hadoop需要SSH,但容器没有自带,需要我们安装。
安装SSH

yum -y install openssh-clients openssh-server

生成3个key文件

ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key

一路回车

ssh-keygen -t ecdsa -f /etc/ssh/ssh_host_ecdsa_key

一路回车

ssh-keygen -t ed25519 -f /etc/ssh/ssh_host_ed25519_key

一路回车

启动sshd

/usr/sbin/sshd

修改root密码
因为默认的密码不知道,我们重新设置一下。

passwd root

设置ssh免密登录到本机

ssh-keygen

一路回车

ssh-copy-id localhost

输入root密码

ssh localhost

免密登录成功
exit
退回到刚才的shell中。

6.4 which

运行hadoop需要which命令,同样容器没有自带,需要我们安装。

yum -y install which

6.5 文件复制

下面我们将已经提前准备好的JDK和Hadoop从宿主机上复制到容器中。注意,复制操作要在Docker宿主机上进行。

docker cp /opt/jdk1.8.0_181/  pseudo-distributed:/root/
docker cp /opt/zookeeper-3.4.10/ pseudo-distributed:/root/

在容器中可以看到JDK和zookeeper已复制到位。

6.6 配置环境变量并在容器启动时启动sshd

在/etc/profile.d中新建一个run.sh文件
在run.sh文件中写入下面6行内容:

export JAVA_HOME=/root/jdk1.8.0_181
export PATH=$PATH:$JAVA_HOME/bin:/root/zookeeper-3.4.10/bin
export HADOOP_HOME=/root/hadoop-2.8.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
/usr/sbin/sshd

用exit命令退出容器,重新启动并进入容器,上面配置的环境变量会生效,sshd也会启动。

6.7 打包镜像

docker commit -a "zld" -m "Hadoop在centos上搭建的伪分布模式。" pseudo-distributed zookeeper-centos:v1

6.8 创建网络

docker network create hadoop_nw

这里新建了一个叫hadoop_nw的网络,后面将10个Hadoop节点容器都加入到该网络,就能相互间通信了。而且不需要配置hosts文件,直接通过容器名称即可访问。

docker network ls

通过该命令可以查看所有的网络,除了我们刚创建的hadoop_nw网络,其它都是安装Docker时自动生成的,在本文中不用管它们。

6.9 用新生成的镜像创建3个容器

docker run -itd --network hadoop_nw -h zookeeper01 --name zookeeper01zookeeper-centos:v1
docker run -itd --network hadoop_nw -h zookeeper02 --name zookeeper02zookeeper-centos:v1
docker run -itd --network hadoop_nw -h zookeeper03 --name zookeeper03zookeeper-centos:v1

6.10 修改zookeeper配置文件

docker attach zookeeper01
cd /root/zookeeper-3.4.10
mkdir data
mkdir logs

vi /root/zookeeper-3.4.10/conf/zoo.cfg
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just
# example sakes.
dataDir=/root/zookeeper-3.4.10/data
dataLogDir=/root/zookeeper-3.4.10/logs
# the port at which the clients will connect
clientPort=2181

server.1=zookeeper01:2888:3888
server.2=zookeeper02:2888:3888
server.3=zookeeper03:2888:3888
vi /root/zookeeper-3.4.10/data/myid
1

6.11 复制配置文件到其他节点

scp -r /root/zookeeper-3.4.10/ zookeeper02:/root/
scp -r /root/zookeeper-3.4.10/ zookeeper03:/root/

6.12 修改其他节点的id

zookeeper02节点

vi /root/zookeeper-3.4.10/data/myid
2

zookeeper03节点

vi /root/zookeeper-3.4.10/data/myid
3

6.13 分别启动zookeeper

zkServer.sh start

6.14 查看zookeeper的状态

3台主机都执行,看待的状态是不一样的,一个leader,两个follower
zkServer.sh status
至此:zookeeper集群安装完毕!

第7章 搭建hbase全分布式集群

说明:hbase跑在hadoop之上,故不需要再启动新的容器,本文把habse集群跑在了hadoop的slave节点。

7.1 复制hbase目录到slave

说明:在宿主机操作
需要的安装包
下载安装包
hbase-1.3.0-bin.tar.gz
解压到/opt/目录底下
复制hbase目录到slave1
docker cp /opt/hbase-1.3.0/ slave1:/root/

7.2 进slave1改hbase配置

说明:slave1容器里操作
vi /root/hbase-1.3.0/conf/hbase-env.sh
#改hbase-env.sh配置,配置java环境变量,关闭自带模式,启动集群模式

export JAVA_HOME=/disk/jdk/
export HBASE_MANAGES_ZK=false

#注意这里加上hadoop的conf路径的环境变量,或者把hadoop的conf中的core-site.xml和hdfs-site.xml文件复制到hbase的conf下

export HADOOP_HOME=/root/hadoop-2.8.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

#改hbase-site.xml配置(特别需要说明的是如果配置了hadoop的ha模式,hbase.rootdir这个配置要改成core-site.xml中fs.defaultFS参数下的根目录,比如该参数是hdfs://bdcluster那么hbase.rootdir要改成hdfs://bdcluster/hbase,如果是单节点的namenode,hbase.rootdir的配置改成hdfs://主机名:端口/hbase)

<configuration>
<property> 
<name>hbase.rootdir</name> 
<value>hdfs://namenode:9000/hbase</value> 
</property>
<property> 
<name>hbase.cluster.distributed</name> 
<value>true</value> 
</property> 
<property> 
<name>hbase.zookeeper.quorum</name> 
<value>zookeeper01,zookeeper02,zookeeper03</value> 
</property> 
<property> 
<name>hbase.zookeeper.property.dataDir</name> 
<value>/disk/hbase-1.3.0/tmp/zk/data</value> 
</property>
<property>
<name>hbase.master.info.port</name>
<value>60010</value>
</property>
<property>
<name>hbase.regionserver.info.port</name>
<value>60012</value>
</property>
</configuration>

vim regionservers
slave1
slave2
slave3
slave4
slave5

7.3 把Hbase复制到其他机器

说明:slave1容器里操作

scp -r /root/hbase-1.3.0/ root@slave2:/root/
scp -r /root/hbase-1.3.0/ root@slave3:/root/
scp -r /root/hbase-1.3.0/ root@slave4:/root/
scp -r /root/hbase-1.3.0/ root@slave5:/root/

7.4 在slave1容器开启hbase集群

start-hbase.sh
致此,hbase集群搭建成功,只需要在每个节点上安装opentsdb就可以。

第8章 搭建opentsdb

说明:opentsdb是往hbase里写数据用的,这里在slave其中一个节点搭建即可。

8.1 复制opentsdb目录到slave

说明:在宿主机操作
需要的安装包
下载安装包
opentsdb-2.3.0.tar.gz
解压到/opt/目录底下
cd /opt/opentsdb-2.2.0
mkdir build
cp -r third_party ./build
./build.sh
cd build/
make install
复制opentsdb目录到slave1
docker cp /opt/opentsdb-2.3.0/ slave1:/root/

8.2 建表

env COMPRESSION=NONE HBASE_HOME=/usr/local/hbase-1.2.6.1 /usr/local/opentsdb-2.2.0/src/create_table.sh

8.3 配置

cp /root/opentsdb-2.3.0/src/opentsdb.conf /root/opentsdb-2.3.0/build/opentsdb.conf
vim /root/opentsdb-2.3.0/build/opentsdb.conf
tsd.network.port = 8000
tsd.http.staticroot = /disk/opentsdb-2.3.0/build/staticroot
tsd.http.cachedir = /tmp/tsd
tsd.core.auto_create_metrics = true
tsd.storage.hbase.zk_quorum = zookeeper01:2181, zookeeper02:2181,
zookeeper03:2181
tsd.http.request.enable_chunked = true
tsd.http.request.max_chunk = 67108863

8.4 配置opentasb的环境变量

cat /etc/profile.d/run.sh
export PATH=$PATH:$JAVA_HOME/bin:/root/hbase-1.3.0/bin
source /etc/profile.d/run.sh

8.5 启动

tsdb tsd --config=/root/opentsdb-2.3.0/build/opentsdb.conf 2>&1 > /tmp/opentsdb.log &
  • 15
    点赞
  • 75
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
### 回答1: 要基于Docker搭建Hadoop集群,您需要遵循以下步骤: 1. 安装Docker:您需要在所有节点上安装Docker。可以通过Docker官方文档来了解如何在您的操作系统上安装Docker。 2. 创建Docker镜像:您需要创建包含HadoopDocker镜像。您可以使用Dockerfile来创建镜像,并在其中安装所需的软件包。 3. 创建Docker容器:一旦您创建了Docker镜像,您需要在每个节点上创建Docker容器。您可以使用Docker命令来创建容器。 4. 配置Hadoop集群:您需要配置Hadoop集群,以便每个节点都能够与其他节点通信。您需要编辑Hadoop配置文件,如core-site.xml和hdfs-site.xml,并指定节点的IP地址和端口号。 5. 启动Hadoop集群:最后,您需要启动Hadoop集群。您可以使用启动脚本启动Hadoop集群。 在完成这些步骤后,您应该已经成功地在基于DockerHadoop集群上设置了分布式计算环境。 ### 回答2: 随着大数据技术的发展,hadoop已经成为了很多企业的首选,但是hadoop的部署和维护是一件非常繁琐的事情,需要很多经验和技巧。为了简化这个过程,很多人开始尝试将hadoop集群部署在docker容器中。 Docker是一个开源的容器化平台,可以轻松地部署和运行各种应用程序。Docker的容器可以在任何运行Docker的机器上运行,这使得hadoop集群可以很容易地部署在任何地方。 基于docker搭建hadoop集群的步骤如下: 1. 安装Docker 首先需要在每台机器上安装Docker。安装过程可以参考Docker官方文档。 2. 创建docker镜像 在第一台机器上创建一个docker镜像,这个镜像可以包含我们需要的hadoop环境。 可以通过Dockerfile创建这个镜像,并且在 Dockerfile 中指定需要的软件包和配置。这个镜像可以包含hadoop,jdk等组件。 3. 部署容器 在第一台机器上使用这个docker镜像创建一个容器,这个容器就是hadoop的NameNode。可以指定hadoop的配置文件,并且可以将hadoop的数据目录挂载到本地硬盘上。 同时,在其他机器上也创建容器,这些容器就是hadoop的DataNode。 4. 启动hadoop服务 启动NameNode容器后,需要进入容器内部,启动hadoop服务。使用hadoop dfsadmin -report 命令可以查看hadoop集群的状态。 5. 配置hadoop集群 hadoop的配置文件可以在NameNode容器内修改,也可以将配置文件挂载到容器内部。配置文件的修改可以通过修改Dockerfile或者手动修改容器内的文件来完成。 一些hadoop集群相关的配置信息需要在hadoop-env.sh,hdfs-site.xml和core-site.xml等文件中进行修改。 6. 测试hadoop集群hadoop集群启动后,可以使用hdfs dfs -ls / 命令来测试hadoop集群的正常运行。 基于docker搭建hadoop集群的优点在于部署和维护都非常方便,同时可以快速地扩展集群Docker容器可以很容易地在不同的主机上运行,并且可以保证集群的统一性。 ### 回答3: Docker是一种轻量级的容器化技术,可以方便快捷地搭建、运行、迁移和管理软件应用,而Hadoop是目前广泛应用于大数据处理和分析的开源平台,使用Hadoop可以有效地解决数据分析和处理的瓶颈问题。基于Docker搭建Hadoop集群,可以实现快速部署与运维,提高集群的可维护性和可扩展性,同时也可以降低运行成本。 以下是基于Docker搭建Hadoop集群的步骤: 1. 安装Docker:首先需要在主机上安装Docker运行环境。 2. 下载Hadoop镜像:从Docker Hub上下载Hadoop镜像,并创建一个自定义的网络。 3. 创建Hadoop节点容器:创建一个Hadoop节点容器,并在其内部配置Hadoop环境变量。 4. 配置Hadoop:配置Hadoop集群的核心配置文件core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml等。 5. 启动Hadoop集群:使用start-dfs.sh和start-yarn.sh脚本启动Hadoop集群,查看配置是否生效。 6. 部署应用程序:将应用程序放入Hadoop集群中的HDFS文件系统,使用yarn命令启动应用程序。 7. 监控和维护:使用Hadoop的监控和管理工具,对集群进行监控和维护。 基于Docker搭建Hadoop集群具有很多优点,如环境准备简单、扩展性强、可移植性高、资源利用率高等,同时也需要注意安全性和稳定性的问题。在实际应用中,可以根据实际需求,对集群进行灵活配置和管理,以便更好地支持大数据处理和分析任务的需求。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

时空无限

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值