hadoop官方文档_docker之hadoop

c7d7dc29a98962e741ea7df5b34c342e.png

大数据动手实践第一步就是要搭建hadoop环境,需要虚拟机虚拟环境,然而繁琐的工作可以变得更简单完成。

这里非常感谢GitHub开源作者的源码贡献。在作者源码基础上进行了dockerfile重写并相关软件的升级和兼容性调整。

项目地址 https://github.com/liuchengts/docker-hadoop使用方式可以参考项目中的说明文档,基本上下载下来执行几个脚本就能完成,非常方便。

所有的环节在开源项目中已经说明了,所以这里我只介绍Dockerfile的部分以及未来如何升级hadoop或者加入自己其他的组件。

Dockerfile:

1、拉取一个ubuntu镜像(centos也是可以的)

2、声明工作空间便于外部定义的配置文件存放。

3、声明启动时可更改的参数,这里我将所有用到的软件版本进行了参数声明,可以根据参数更改软件的版本,注意更改了版本后核实外部的配置文件是否能适用。

4、声明环境变量

5、因为是纯净的系统,所以需要安装必须的一些工具(axel 多线程下载的工具),其他软件就是常规软件了

6、jdk是必须要的,这里使用到了我个人的七牛云公共库,因为现在下载oracle的jdk需要登录了,意味着以前脚本方式下载jdk不再可用

7、下载hadoop官方安装包,安装完成之后复制hadoop配置文件到相应的目录,注意hadoop版本不一样配置会有些差别,尤其是2到3的版本

8、hadoop的hdfs文件系统是在第一次使用必须格式化的,所以这里需要执行以下格式化

9、生成秘钥并且配置免密登录,因为hadoop集群之间是需要相互访问的

10、清理资源,清理掉下载的文件,复制进镜像的配置文件,尽可能减少镜像大小

11、增加相应脚本的执行权限

12、最后启动ssh

基于这个镜像可以做很多事情了,注意项目代码中是用docker run 方式启动的 换成docker-compose也是可以的,这里因为原作者的方式比较方便,所以我采用了原作者的启动方式。

发现一个问题:在Dockerfile中使用相对路径 cat追加文件会不执行,表现为没有权限执行,但是本身是root用户了。进入容器执行又是可以的,这里没有仔细研究,后续搭建完spark之后再来整这个问题

欢迎关注我的公众号:搜索术业有道之编程或扫描以下二维码关注

57ed139f8519acd78d208432b31c7f8b.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值