前提:已安装并配置好Docker
拉取Spark镜像
首先到Docker Hub找到Apache官方的Spark镜像,获取docker pull
命令。
也可以选择Docker官方的Spark镜像,方法都差不多。
如果对版本没有要求的话,直接使用如下命令拉取当前最新的镜像即可:
docker pull apache/spark
创建容器
镜像拉取成功后,就可以创建容器运行Spark了。这里需要配置一个端口映射,将本地的4040端口映射到Spark的4040端口。
# 以下命令根据Apache官方Spark镜像说明中给出的运行命令修改而来
docker run -it --name my-spark -p 4040:4040 apache/spark:3.4.1 /opt/spark/bin/spark-shell
这个命令的作用是以交互式方式在一个名为my-spark的容器中运行Apache Spark,在容器内部启动Spark的交互式Scala Shell。
命令执行成功后,会进入Spark的Scala Shell,接下来使用一条Spark的Scala API spark.range(1000 * 1000 * 1000).count()
检测Spark能否正常运行。
如果能够正常输出结果,说明Spark已经配置成功。