S3和Spark简介
S3已成为在数字化应用程序中存储非结构化数据块的标准API。因此,一些供应商提供了S3-API兼容产品,允许应用程序开发人员对内部私有部署的S3 API进行标准化,并在准备完善后将这些应用程序移植到其他平台上。
对于新手而言,什么是S3和Spark?
S3是最初由Amazon创建的对象存储服务,具有可扩展性,数据可用性,支持高性能和高安全性。它提供了丰富的API,可以抽象底层数据存储,允许从网络上的几乎任何位置进行访问。在S3中,基本存储单元被称为对象,并被组织成桶。每个对象都通过其密钥进行标识,并具有与之关联的元数据。
存在的问题
具有S3兼容API的对象存储,如Cloudian,Minio,SwiftStack,可能看起来像文件系统。实际上,它们不是经典的POSIX文件系统,而且差异非常大。在典型的文件系统中进行的更改通常是立即可见的,但在对象存储的情况下,更改效果有延时,只是保持最终一致性。为了另外,存储数PB的数据,对象存储使用更简单的键值模型替换经典文件系统目录树结构。在对象存储上覆盖类似文件目录的结构会降低它的速度。此外,重命名等文件操作也非常耗时,这主要是因为重命名需要多个慢速HTTP REST调用(复制到目标对象,删除源对象)才能完成。
这对Spark有何影响?
- 读取和写入数据可能比使用普通文件系统慢得多
- 某些目录结构的扫描效率可能非常低
- Spark任务的输出可能不会立即可见
- Spark在保存数据集时通常提交的重命名算法可能既慢又不可靠
现有解决方案
Spark没有原生的S3实现,因此依赖Hadoop提供的类来抽象数据访问。Hadoop为S3提供3个文件系统客户端(s3n,s3a和块s3)。Spark在通过这些连接器使用S3时,需要大量的微调,以提高Spark作业性能的可预测性。例如,在开始实际工作之前(在格式转换方面)以及工作完成之后(将结果写回),分析并检查Spark任务耗时是很重要的。
Alluxio如何提供帮助
在理想情况下,将S3数据读入Spark并实现数据共享的过程应该是自动化和透明的。因此,用户可以部署一层数据编排层(如Alluxio)来为Spark提供数据访问,以提高端到端模型开发效率。例如,Alluxio可以与Spark集群共同部署,通过Alluxio POSIX或HDFS兼容接口共享数据,并支持安装的远程存储(如S3)。