从0开始,利用docker搭建一套大数据开发环境(一)

天才第一步,雀氏纸尿裤。那么大数据第一步是什么呢?先搭建一套开发环境。

对于刚进入这个领域的同学来说,搭这套环境的过程可以学到很多东西,包括Linux的常用操作,如何设置配置文件,怎么使用linux的命令行,甚至,如果是在windows主机上使用虚拟机搭建环境的话,还能学到很多计算机网络等其他方面的基础知识。所以,亲手从0搭建一套大数据开发系统是非常有必要的。

但是呢,这个过程也是非常痛苦的,堪称新人入门的一道拦路虎,不少人的学习热情,就在这第一步被生生浇灭了。。。所以,为了再次照亮你心中最初的那道光,我开辟了这个系列。

我将在这一个系列中让你最快速的用上大数据系统,敲出自己的第一个hello world,并教你怎么样用一个命令,就能从0完全自动化的搭建一个有三个节点的分布式大数据系统。

当然了,我依然建议同学们亲自用apache的大数据组件搭一套系统出来,这样感受会更深刻。

好了,那开始吧。

问:最快用上大数据系统需要多少s?答:1s。

真的吗?当然了,不过需要借助一样工具,就是大名鼎鼎的docker。docker也叫容器,简单说就是一个小型的虚拟机,其他进一步的细节我们后面再介绍,首先就来安装一下吧。

我这里先讲如何在centos7的linux中安装,其他的如windows,Mac等之后再写文章吧。

centos7中安装docker首先要配置yum源:

yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo

然后运行

yum list docker-ce --showduplicates | sort -r

这样能看到很多可供安装的docker版本,使用下面的命令装一个就行了

yum install docker-ce-18.03.1.ce -y

假设你现在已经装好了,输入docker version,就能看到下面的界面:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-23r44kmb-1607006130780)(/Users/lixiaofei/Library/Application Support/typora-user-images/image-20201203223040999.png)]

此时就离大功告成不远了,现在,在命令行输入

docker pull sequenceiq/hadoop-docker

这条命令意思是从docker hub中下载一个名叫sequenceiq/hadoop-docker的镜像,至于docker hub是什么,镜像又是什么,后面会介绍。

命令执行之后,就能看到很多正在下载的layer层

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Ajanyv3-1607006130781)(/Users/lixiaofei/Library/Application Support/typora-user-images/image-20201203223139006.png)]

docker中的镜像是按层存储的,后面会详细解释,现在暂时有这个一个印象就好。

然后,就是拼网速的时候了。。。

当然了,这个毕竟是国外的东西,所以单纯拼网速还不够,得配置一下镜像加速。

进入 /etc/docker 目录,修改 daemon.json 文件为下面的内容即可。

{
  "registry-mirrors":[
    "https://hub-mirror.c.163.com",
    "https://mirror.baidubce.com"
  ]
}

如果已经开始下载了,按 ctrl + c 即可退出下载过程,修改之后再下载一遍就可以了。

下载完成之后,输入 docker images 就能看到刚刚下载的hadoop镜像了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xhow97tg-1607006130782)(/Users/lixiaofei/Library/Application Support/typora-user-images/image-20201203223341056.png)]

下载好之后,输入

docker run -it --name hadoop -- hostname hadoop sequenceiq/hadoop-docker:2.7.0 /etc/bootstrap.sh -bash

这条命令我会在后面详细进行解释。总之,这是一条启动docker容器的命令,输入之后就会看到ssh服务被启动了,然后hdfs和yarn也都被启动了。

这样一个大数据系统就已经搭建完成了,是不是很方便,再也不用再各种配置文件中崩溃了,哈哈哈。

容器启动,怎么用呢?得先登录到容器中

docker exec -it hadoop /bin/bash

登录容器共有四种方法,今天先介绍这种。

登录进去后就可以为所欲为啦。

需要注意的是,这个容器并没有配置环境变量,所以先进入到hadoop的安装目录下。

cd $HADOOP_PREFIX

# 运行mapreduce测试程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.0.jar grep input output 'dfs[a-z.]+'

# 检查测试程序的输出
bin/hdfs dfs -cat output/*

是不是,啪的一下就可以点进来玩大数据了,在也不怕老师让你大环境了,直接不讲武德,哈哈哈。

当然了,这个docker镜像是别人做的,肯定有很多不如意的地方,后面我会教你怎么自己定制一个镜像。

那么今天就到这,拜拜~

在这里插入图片描述
这是鄙人的公众号,欢迎各位围观~~

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值