容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

原创 2018年04月17日 15:14:37
摘要: 容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析 (二):Kubernetes如何助力Spark大数据分析 概述 本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析

(二):Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK,允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合,允许Spark分布式内存计算,机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群,详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

  1. 给你的应用一个名字, e.g. spark-oss-online2
  2. (必选)填写你的oss_access_key_id和oss_access_key_secret

Worker: # set OSS access keyID and secret oss_access_key_id: <Your sub-account> oss_access_key_secret: <your key_secret of sub-account>
3.(可选)修改工作节点数目 Worker.Replicas: 3

4 点击 “部署”
5 点击 “Kubernetes 控制台”,查看部署实例
6 点击 服务, 查看外部端点, 点击URL访问Spark集群


7 测试Spark集群

  1. 打开一个spark-shell
kubectl get pod | grep worker
spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs -- /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077
1.粘贴下列代码,使用Spark测试OSS的读写性
// Save RDD to OSS bucketval stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))stringRdd.saveAsTextFile("oss://eric-new/testwrite12")// Read data from OSS bucketval lines = sc.textFile("oss://eric-new/testwrite12")lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>export OSS_SECRET=<your oss secrets>helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss

kubectl get svc| grep ossmyspark-oss-master ClusterIP 172.19.9.111 <none> 7077/TCP 2mmyspark-oss-webui LoadBalancer 172.19.13.1 120.55.104.27 8080:30477/TCP 2m

阅读更多干货好文,请关注扫描以下二维码: 

跟我一起写 Makefile(一)

跟我一起写 Makefile 陈皓概述——什么是makefile?或许很多Winodws的程序员都不知道这个东西,因为那些Windows的IDE都为你做了这个工作,但我觉得要作一个好的和profess...
  • haoel
  • haoel
  • 2004-02-24 16:48:00
  • 360361

Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载

问题导读1.什么是Kubernetes?2.在Kubernetes集群尝试新功能,该如何实现?3.观看群集上创建的Spark资源,该如何操作?在开始之前我们需要知道什么是KubernetesKuber...
  • c36qUCnS2zuqF6
  • c36qUCnS2zuqF6
  • 2018-03-07 00:00:00
  • 186

大数据分析

  • 2018年04月22日 15:56
  • 7.23MB
  • 下载

Spark快速大数据分析

  • 2017年10月17日 18:05
  • 7.42MB
  • 下载

[中文]Spark快速大数据分析

  • 2018年03月19日 21:46
  • 8.29MB
  • 下载

Spark大数据分析实战

  • 2018年01月04日 17:27
  • 54.29MB
  • 下载

spark快速大数据分析

  • 2017年12月06日 16:21
  • 7.3MB
  • 下载

spark 快速大数据分析

  • 2017年11月16日 12:18
  • 7.42MB
  • 下载

kubernetes1.2如何操作Docker

本次分析的kubernetes版本号:v1.2.1-beta.0。 Kubernetes对Docker的管理是通过一个第三方组件实现的,这个第三方组件就是go-dockerclient,这是一个GO...
  • horsefoot
  • horsefoot
  • 2016-04-27 18:09:17
  • 20400

《Spark快速大数据分析》——读书笔记(4)

第4章 键值对操作键值对RDD通常用来进行聚合计算。我们一般要先通过一些初试ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 本章也会讨论用来让用户控制键值对RDD在各节点上分布情况的高级特...
  • u013319237
  • u013319237
  • 2017-07-20 10:39:17
  • 517
收藏助手
不良信息举报
您举报文章:容器开启数据服务之旅系列(二):Kubernetes如何助力Spark大数据分析
举报原因:
原因补充:

(最多只允许输入30个字)