基于私有S3环境高效运行Spark

Alluxio

于 2019-10-01 00:45:10 发布

阅读量476

点赞数

文章标签： Spark S3 Alluxio

本文链接：https://blog.csdn.net/Alluxio/article/details/101805395

版权

S3和Spark简介

S3已成为在数字化应用程序中存储非结构化数据块的标准API。因此，一些供应商提供了S3-API兼容产品，允许应用程序开发人员对内部私有部署的S3 API进行标准化，并在准备完善后将这些应用程序移植到其他平台上。

对于新手而言，什么是S3和Spark？

S3是最初由Amazon创建的对象存储服务，具有可扩展性，数据可用性，支持高性能和高安全性。它提供了丰富的API，可以抽象底层数据存储，允许从网络上的几乎任何位置进行访问。在S3中，基本存储单元被称为对象，并被组织成桶。每个对象都通过其密钥进行标识，并具有与之关联的元数据。

存在的问题

具有S3兼容API的对象存储，如Cloudian，Minio，SwiftStack，可能看起来像文件系统。实际上，它们不是经典的POSIX文件系统，而且差异非常大。在典型的文件系统中进行的更改通常是立即可见的，但在对象存储的情况下，更改效果有延时，只是保持最终一致性。为了另外，存储数PB的数据，对象存储使用更简单的键值模型替换经典文件系统目录树结构。在对象存储上覆盖类似文件目录的结构会降低它的速度。此外，重命名等文件操作也非常耗时，这主要是因为重命名需要多个慢速HTTP REST调用（复制到目标对象，删除源对象）才能完成。

这对Spark有何影响？

读取和写入数据可能比使用普通文件系统慢得多
某些目录结构的扫描效率可能非常低
Spark任务的输出可能不会立即可见
Spark在保存数据集时通常提交的重命名算法可能既慢又不可靠

现有解决方案

Spark没有原生的S3实现，因此依赖Hadoop提供的类来抽象数据访问。Hadoop为S3提供3个文件系统客户端（s3n，s3a和块s3）。Spark在通过这些连接器使用S3时，需要大量的微调，以提高Spark作业性能的可预测性。例如，在开始实际工作之前（在格式转换方面）以及工作完成之后（将结果写回），分析并检查Spark任务耗时是很重要的。

Alluxio如何提供帮助

在理想情况下，将S3数据读入Spark并实现数据共享的过程应该是自动化和透明的。因此，用户可以部署一层数据编排层（如Alluxio）来为Spark提供数据访问，以提高端到端模型开发效率。例如，Alluxio可以与Spark集群共同部署，通过Alluxio POSIX或HDFS兼容接口共享数据，并支持安装的远程存储（如S3）。

Alluxio

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于私有S3环境高效运行Spark

S3和Spark简介S3已成为在数字化应用程序中存储非结构化数据块的标准API。因此，一些供应商提供了S3-API兼容产品，允许应用程序开发人员对内部私有部署的S3 API进行标准化，并在准备完善后将这些应用程序移植到其他平台上。对于新手而言，什么是S3和Spark？S3是最初由Amazon创建的对象存储服务，具有可扩展性，数据可用性，支持高性能和高安全性。它提供了丰富的API，可以抽象底层...
复制链接

扫一扫