hadoop对比maxcompute_MaxCompute Spark与Spark SQL对比分析及使用注意事项

最新推荐文章于 2023-01-13 15:42:53 发布

Zewei Chu

最新推荐文章于 2023-01-13 15:42:53 发布

阅读量1.6k

点赞数

文章标签： hadoop对比maxcompute

本文链接：https://blog.csdn.net/weixin_29250403/article/details/113626697

版权

本文对比分析了Spark on Hadoop与Spark on MaxCompute的功能特性，包括部署模式、数据源支持和提交方式。在MaxCompute上，Spark支持访问的数据源包括OSS、ECS、RDS等。代码开发方面，建议使用SparkSql，注意POM配置和Jar包引用。在DataWorks中部署Spark作业时，需创建Spark节点，配置参数并发布。

摘要由CSDN通过智能技术生成

以下内容根据演讲视频以及PPT整理而成。
本次分享主要围绕以下三个方面：

一、功能特性
二、代码开发
三、DataWorks模式

一、功能特性

1.Spark部署模式
Spark开源文档中表明部署模式支持几种部署模式，如stand alone模式、on yarn模式、on k8s模式等。但是其中并不包括Spark on MaxCompute模式。Spark on MaxCompute其实是 MaxCompute平台对开源的Spark做的兼容支持，使得 MaxCompute平台得以支持运行Spark的作业。在部署的集群方式上，on yarn、on k8s集群云上部署时需要购买ECS部署Hadoop集群或者容器集群，或者是使用阿里云的产品，如EMR、容器服务。与用于自己搭建的Hadoop环境（CDH或者EMR的环境）对比时，自建的环境需要登录到集群中，进行查询和维护的工作，但在MaxCompute平台中，使用侧无法登陆，无需关心集群的运维等操作，相比on yarn等开源模式只需将精力放在Spark业务逻辑开发上。当用户部署完集群去客户端提交作业时，开源模式是从官网下载Spark客户端，通过Spark-submit提交作业。但开源的Spark-submit客户端无法到MaxCompute平台中提交作业。这时则需要注意使用MaxCompute中Github上提供的Spark，部署开发环境，并在开发本地处理测试提交的工作。

2.支持的数据源Spark on yarn/K8s限制条件：首先，开源模式需要确认支持数据源操作的jar包是否存在。在常规做Spark作业开发分析时，需要需要考虑数据的来源以及去向，即Spark支不支持对对应的数据库进行读写访问。在开源开发模式下，需要将对应数据源支持的jar包加进去，在代码引用时则可以对对应的数据库进行读写访问。其次，开源模式还需要保证平台环境网络是否可打通。尽管代码层面上的接口都可以调用访问对应的库，但还需要检查Spark集群所运行的环境。如果作业是在集群中运行，在Hadoop中将作业提交上去，Work接点里面跑出来，在Spark并发跑的时候，拉取数据时要保证集群能访问到数据库，否则作业里会报连接超时的错误。云上环境网络连通上如常见的云上ECS搭建、自建Hadoop、k8s容器服务、EMR或者常见的VPC环境。如果VPC环境下集群和数据库之间要在网络评估的话࿰