基于Kubernetes的Spark集群部署和测试

最新推荐文章于 2024-09-14 14:14:57 发布

TheSky0108

最新推荐文章于 2024-09-14 14:14:57 发布

阅读量1.4k

点赞数 6

分类专栏： Kubernetes Spark 文章标签： Kubernetes Spark Docker 云计算云平台

本文链接：https://blog.csdn.net/TheSky0108/article/details/85345395

版权

Kubernetes 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Spark

1 篇文章 0 订阅

订阅专栏

基于Kubernetes的Spark集群部署和测试

一、构建Docker镜像
二、在Kubernetes上创建Spark集群
三、测试Spark的一个简单应用

Spark是新一代分布式内存计算框架，Apache开源的顶级项目。相比于Hadoop Map-Reduce计算框架，Spark将中间计算结果保留在内存中，速度提升10~100倍；同时它还提供更丰富的算子，采用弹性分布式数据集(RDD)实现迭代计算，更好地适用于数据挖掘、机器学习算法，极大提升开发效率。
Docker是轻量级虚拟化容器技术，具有轻便性、隔离性、一致性等特点，可以极大简化开发者的部署运维流程，降低服务器成本。
Kubernetes是Google开源的容器集群管理系统，提供应用部署、维护、扩展等功能，能够方便地管理大规模跨主机的容器应用。
Spark集群在Kubernetes运行的工作原理，如下图所示。
在这里插入图片描述
接下来，我们开始使用 Docker和Kubernetes创建Spark集群（其中包含1个spark-master和N个spark-workers）。
首先需要准备以下条件:

（1）部署并正常运行的 Kubernetes集群
（2）Docker的私有仓库Harbor（具体步骤可参考网上相关教程）
（3）spark镜像安装包（百度云链接：
链接：https://pan.baidu.com/s/1s83Jj16BKrTQL3Cuk5tu_Q
提取码：noh8
）

一、构建Docker镜像

1.首先从本地把spark镜像安装包上传到虚拟机，并导出镜像。

root@linux-harbor:~# rz

在这里插入图片描述

root@linux-harbor:~# docker load --input spark_1.5.2.tar
root@linux-harbor:~# docker images

在这里插入图片描述
2.把虚拟机的saprk镜像上传到自己的私有仓库Harbor。

root@linux-harbor:~# docker tag caicloud/spark:1.5.2 192.168.185.130/library/spark:1.5.2
root@linux-harbor:~# docker push 192.168.185.130/library/spark:1.5.2

在这里插入图片描述
注意事项：

当镜像有版本号的时候，tag和push的时候要加上版本号，否则会提示找不到镜像。
192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址，你需要修改为自己的镜像地址，否则上传镜像会失败。

二、在Kubernetes上创建Spark集群

在Kubernetes上创建spark集群，是通过执行ymal文件来创建的，下面会给出相关的yaml文件和具体步骤。
1.创建spark-master：先创建命名空间Namespace，接着创建Secret，用来保存密码、私钥、口令等敏感信息，然后创建spark-master的ReplicationController，最后创建spark所提供的Service(spark-master-service)。spark-workers使用spark-master-service来连接spark-master。

root@linux-node1:~# mkdir -p yaml/spark/
root@linux-node1:~# cd yaml/spark/
root@linux-node1:~/yaml/spark# vim spark-master.yaml 
apiVersion: v1
kind: Namespace
metadata:
  name: spark-cluster
  labels:
    name: spark-cluster
---
apiVersion: v1
kind: Secret
metadata:
  name: secret-n
  namespace: spark-cluster
data:
  .dockerconfigjson: ewoJImF1dGhzIjogewoJCSIxOTIuMTY4LjE4NS4xMzYiOiB7CgkJCSJhdXRoIjogIllXUnRhVzQ2U0dGeVltOXlNVEl6TkRVPSIKCQl9Cgl9LAoJIkh0dHBIZWFkZXJzIjogewoJCSJVc2VyLUFnZW50IjogIkRvY2tlci1DbGllbnQvMTcuMDkuMC1jZSAobGludXgpIgoJfQp9
type: kubernetes.io/dockerconfigjson
---
kind: ReplicationController
apiVersion: v1
metadata:
  name: spark-master
  namespace: spark-cluster
spec:
  replicas: 1
  selector:
    component: spark-master
  template:
    metadata:
      labels:
        component: spark-master
    spec:
      containers:
        - name: spark-master
          image: 192.168.185.130/library/spark:1.5.2
          command: ["/start-master"]
          ports:
            - containerPort: 7077
            - containerPort: 8080
          resources:
            requests:
              cpu: 100m
      imagePullSecrets:
      - name: secret-n
---
kind: Service
apiVersion: v1
metadata:
  name: spark-master
  namespace: spark-cluster
spec:
  ports:
    - port: 7077
      targetPort: 7077
  selector:
    component: spark-master
---
root@linux-node1:~/yaml/spark# kubectl create -f spark-master.yaml

查看一下pod和service的运行状态：

root@linux-node1:~/yaml/spark# kubectl get pod -n spark-cluster
root@linux-node1:~/yaml/spark# kubectl get svc -n spark-cluster

在这里插入图片描述

注意事项：

第38行image后面的地址192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址，你需要修改为自己的镜像地址，否则在拉取镜像的过程中会提示失败。

2.创建spark-workers：先创建spark所提供的Services(spark-webui)，，然后创建spark-workers的ReplicationController。spark-workers启动时需要 spark-master service处于运行状态，我们可以通过修改replicas来设定worker数目（比如设定 replicas: 4，即可建立4个spark-workers）。我们也可以为每一个worker节点设置了CPU和内存的配额，保证Spark的worker应用不会过度抢占集群中其他应用的资源。

root@linux-node1:~/yaml/spark# vim spark-workers.yaml 
kind: Service
apiVersion: v1
metadata:
  name: spark-webui
  namespace: spark-cluster
spec:
  ports:
    - port: 8081
      targetPort: 8081
  selector:
    component: spark-master
---
kind: ReplicationController
apiVersion: v1
metadata:
  name: spark-worker-controller
  namespace: spark-cluster
spec:
  replicas: 4
  selector:
    component: spark-worker
  template:
    metadata:
      labels:
        component: spark-worker
    spec:
      containers:
        - name: spark-worker
          image: 192.168.185.130/library/spark:1.5.2
          command: ["/start-worker"]
          ports:
            - containerPort: 8088
          resources:
            requests:
              cpu: 100m
      imagePullSecrets:
        - name: secret-n

root@linux-node1:~/yaml/spark# kubectl create -f spark-workers.yaml

查看一下pod和service的运行状态：

root@linux-node1:~/yaml/spark# kubectl get pod -n spark-cluster
root@linux-node1:~/yaml/spark# kubectl get svc -n spark-cluster

在这里插入图片描述
注意事项：

第30行image后面的地址192.168.185.130/library/spark:1.5.2是本人自己Harbor中的镜像地址，你需要修改为自己的镜像地址，否则在拉取镜像的过程中会提示失败。

通过浏览器访问Kubernetes,在命名空间查看Spark集群的运行状态：
在这里插入图片描述

三、测试Spark的一个简单应用

计算圆周率 $\pi$ 的近似值。通过Spark-client，可以利用spark-submit来提交复杂的Python脚本、Java/Scala的jar包代码。

root@linux-node1:~# kubectl exec spark-worker-controller-7htn6 -n spark-cluster -it /bin/bash
root@spark-worker-controller-7htn6:/# spark-submit \
--class org.apache.spark.examples.SparkPi \
--executor-memory 1G \
--master spark://spark-master:7077 \
$SPARK_HOME/opt/spark/lib/spark-examples-1.5.2-hadoop2.6.0.jar

运行结果如图所示：
在这里插入图片描述
注意事项：

spark-examples-1.5.2-hadoop2.6.0.jar包是Spark自带的，jar包路径$SPARK_HOME/opt/spark/lib/spark-examples-1.5.2-hadoop2.6.0.jar要修改成自己的准确路径，否则会提示java.lang.ClassNotFoundException。
executor-memory设置不要等于或超过虚拟机的内存，否则会提示check your cluster UI to ensure that workers are registered and have sufficient resources。