shell 进入hadoop_五年大数据经验：Hadoop实验环境部署这么做

最新推荐文章于 2022-10-30 14:50:34 发布

谭押沙龙

最新推荐文章于 2022-10-30 14:50:34 发布

阅读量104

点赞数

文章标签： shell 进入hadoop

本文链接：https://blog.csdn.net/weixin_36275605/article/details/112245651

版权

本文介绍了如何借助Docker快速搭建一个Hadoop实验环境，特别是针对初学者，通过拉取cloudera-cdh-edgenode镜像，创建并启动HDFS、YARN、DataNode及EdgeNode容器，简化了Hadoop部署的复杂过程。文中还提及了镜像中包含的测试数据和脚本，可用于HDFS、MapReduce、Pig、Hive和Spark等组件的实践操作。

摘要由CSDN通过智能技术生成

了解Hadoop这样的重量级平台，必须有一个实验环境

Hadoop的部署又是一个比较复杂而繁琐的过程，对于入门的选手来说，能避开繁琐的部署过程，先使用起来是极其重要的。Hadoop的商用厂家cloudera发布了官方的免费cdh容器镜像，我们可以简单几步就搭建起一个cdh的实验环境。

搭建环境准备

1.部署docker

centos或者red hat

 yum install docker

ubuntu

 apt
-
get
 install docker
-
ce

下载mac版的docker，地址：https://store.docker.com/editions/community/docker-ce-desktop-mac，再双击部署即可。

windows

最好先部署virtualbox或者vmware workstation，再开虚拟机部署centos,red hat，ubuntu等，最后按照上述方法部署docker。

2.配置docker国内镜像源（可选）

笔者选用的源是daocloud的源，登录daocloud，按照步骤配置源。

部署

1.拉取镜像

 docker pull loicmathieu
/
cloudera
-
cdh
-
edgenode
 docker pull loicmathieu
/
cloudera
-
cdh
-
namenode
 docker pull loicmathieu
/
cloudera
-
cdh
-
yarnmaster
 docker pull loicmathieu
/
cloudera
-
cdh
-
datanode
 docker pull loicmathieu
/
cloudera
-
cdh
-
edgenode

loicmathieu/cloudera-cdh-edgenode包含以下的Hadoop客户端：hdfs，yarn，mapreduce v2，pig，hive，spark，sqoop，flume。

2.为集群创建网络

docker network create hadoop

3.启动HDFS和yarn容器

docker run 
-
d 
--
net hadoop 
--
net
-
alias
 namenode 
-
p 
8020
:
8020
 loicmathieu
/
cloudera
-
cdh
-
namenode
docker run 
-
d 
--
net hadoop 
--
net
-
alias
 yarnmaster 
-
p 
8032
:
8032
 
-
p 
8088
:
8088
 loicmathieu
/
cloudera
-
cdh
-
yarnmaster

4.启动datanode容器

docker run 
-
d 
--
net hadoop 
--
net
-
alias
 datanode1 
-
h datanode1 
--
link namenode 
--
link yarnmaster 
-
p 
50020
:
50020
 
-
p 
50075
:
50075
 
-
p 
8042
:
8042
 
loicmathieu
/
cloudera
-
cdh
-
datanode

5.启动edgenode并且进入edgenode

docker run 
-
ti 
--
net hadoop 
--
net
-
alias
 edgenode 
--
link namenode 
--
link yarnmaster 
loicmathieu
/
cloudera
-
cdh
-
edgenode bash

示例

镜像里面包含一些用来测试集群的测试数据和脚本 1.HDFS和MapReduce

 hadoop fs 
-
mkdir 
/
cities
 hadoop fs 
-
put cities
.
csv 
/
cities
 hadoop fs 
-
cat 
/
cities
/
cities
.
csv
 hadoop jar 
/
usr
/
lib
/
hadoop
-
mapreduce
/
hadoop
-
 mapreduce
-
examples
.
jar 
 wordcount 
/
cities
/
cities
.
csv 
/
wordcount
 hadoop fs 
-
ls 
/
wordcount

2.Pig

 pig cities
.
pig
 hadoop fs 
-
ls 
/
data_by_department
 hadoop fs 
-
cat 
/
data_by_department
/
part
-
r
-
00000

3.Hive

 beeline 
-
u jdbc
:
hive2
:
// -f cities.hql
 beeline 
-
u jdbc
:
hive2
:
//
 
select
 
*
 
from
 cities limit 
10
;
 
select
 
*
 
from
 cities 
where
 department 
=
 
'82'
 limit 
10
;

4.Spark（local）

spark
-
shell
val cities 
=
 sc
.
textFile
(
"hdfs:///cities"
);
cities
.
count
();
exit
;

5.Spark（yarn）

spark
-
shell 
--
master yarn
val cities 
=
 sc
.
textFile
(
"hdfs:///cities"
);
cities
.
count
();
exit
;

6.Sqoop和flume Flume和Sqoop本篇不做过多的讨论，后续会专门讨论。

目前为止，我们已经搭建了一个用于实验的CDH集群，对于我们探索Hadoop已经迈出了关键性的一步，下一篇我们将讨论Hadoop存储层HDFS

文字性的叙述，就给大家介绍到这里，接下来的是以视频的方式传播给大家，希望大家能够喜欢，把Hadoop讲的明明白白的，让大家理解的透彻，能够好好的运用，那么我就把Hadoop 300集给大家了。

谭押沙龙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
shell 进入hadoop_五年大数据经验：Hadoop实验环境部署这么做

了解Hadoop这样的重量级平台，必须有一个实验环境Hadoop的部署又是一个比较复杂而繁琐的过程，对于入门的选手来说，能避开繁琐的部署过程，先使用起来是极其重要的。Hadoop的商用厂家cloudera发布了官方的免费cdh容器镜像，我们可以简单几步就搭建起一个cdh的实验环境。搭建环境准备1.部署dockercentos或者red hat yum install dockerubuntu a...
复制链接

扫一扫