docker之spark

本文详细介绍了如何在Hadoop基础上构建Spark Docker镜像的过程,包括选择稳定下载工具、声明参数和环境变量、安装必要组件如JDK、Zookeeper、Hadoop、Scala及Spark等,并进行配置和权限设置。
摘要由CSDN通过智能技术生成

前几天做了个hadoop镜像,hadoop擅长的场景在于离线计算,对于实时性要求要的场景还是得spark上场,于是研究了下spark。

项目地址 https://github.com/liuchengts/docker-spark

用法基本与上次的hadoop类似,同样我只在此说明 dockerfile的内容。

spark环境是在原先hadoop基础上增加一些其他必要组件,所以有些步骤是几乎一样的。

上次的axel下载工具坑了我,频繁超时之后会卡死。故换回了wget,慢就慢点吧,稳定就好。

Dockerfile:

1、拉取一个ubuntu镜像(centos也是可以的)

2、声明工作空间便于外部定义的配置文件存放。

3、声明启动时可更改的参数,这里我将所有用到的软件版本进行了参数声明,可以根据参数更改软件的版本,注意更改了版本后核实外部的配置文件是否能适用。

4、声明环境变量

5、因为是纯净的系统,所以需要安装必须的一些工具

6、jdk是必须要的,这里使用到了我个人的七牛云公共库,因为现在下载oracle的jdk需要登录了,意味着以前脚本方式下载jdk不再可用

7、下载zookeeper安装包,解压安装,复制配置文件

8、下载hadoop官方安装包,安装完成之后复制hadoop配置文件到相应的目录,注意hadoop版本不一样配置会有些差别,尤其是2到3的版本

9、hadoop的hdfs文件系统是在第一次使用必须格式化的,所以这里需要执行以下格式化

10、下载scala安装包,解压安装

11、下载spark安装包,解压安装,复制配置文件

12、生成秘钥并且配置免密登录,因为hadoop集群之间是需要相互访问的

13、清理资源,清理掉下载的文件,复制进镜像的配置文件,尽可能减少镜像大小

14、增加相应脚本的执行权限

15、最后启动ssh

欢迎关注我的个人公众号
欢迎关注我的个人公众号
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值