基于私有S3环境高效运行Spark

S3和Spark简介

S3已成为在数字化应用程序中存储非结构化数据块的标准API。因此,一些供应商提供了S3-API兼容产品,允许应用程序开发人员对内部私有部署的S3 API进行标准化,并在准备完善后将这些应用程序移植到其他平台上。

对于新手而言,什么是S3和Spark?

S3是最初由Amazon创建的对象存储服务,具有可扩展性,数据可用性,支持高性能和高安全性。它提供了丰富的API,可以抽象底层数据存储,允许从网络上的几乎任何位置进行访问。在S3中,基本存储单元被称为对象,并被组织成桶。每个对象都通过其密钥进行标识,并具有与之关联的元数据。

存在的问题

具有S3兼容API的对象存储,如Cloudian,Minio,SwiftStack,可能看起来像文件系统。实际上,它们不是经典的POSIX文件系统,而且差异非常大。在典型的文件系统中进行的更改通常是立即可见的,但在对象存储的情况下,更改效果有延时,只是保持最终一致性。为了另外,存储数PB的数据,对象存储使用更简单的键值模型替换经典文件系统目录树结构。在对象存储上覆盖类似文件目录的结构会降低它的速度。此外,重命名等文件操作也非常耗时,这主要是因为重命名需要多个慢速HTTP REST调用(复制到目标对象,删除源对象)才能完成。

这对Spark有何影响?

  • 读取和写入数据可能比使用普通文件系统慢得多
  • 某些目录结构的扫描效率可能非常低
  • Spark任务的输出可能不会立即可见
  • Spark在保存数据集时通常提交的重命名算法可能既慢又不可靠

现有解决方案

Spark没有原生的S3实现,因此依赖Hadoop提供的类来抽象数据访问。Hadoop为S3提供3个文件系统客户端(s3n,s3a和块s3)。Spark在通过这些连接器使用S3时,需要大量的微调,以提高Spark作业性能的可预测性。例如,在开始实际工作之前(在格式转换方面)以及工作完成之后(将结果写回),分析并检查Spark任务耗时是很重要的。

Alluxio如何提供帮助

在理想情况下,将S3数据读入Spark并实现数据共享的过程应该是自动化和透明的。因此,用户可以部署一层数据编排层(如Alluxio)来为Spark提供数据访问,以提高端到端模型开发效率。例如,Alluxio可以与Spark集群共同部署,通过Alluxio POSIX或HDFS兼容接口共享数据,并支持安装的远程存储(如S3)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值