java aws批量_通过 S3 Batch Operations (批量操作)功能轻松处理海量对象

本文介绍了如何使用AWS S3的批量操作功能处理大量对象,包括创建作业、选择操作、指定IAM角色等步骤,展示了通过S3控制台替换对象标签的实例,强调了无需编写代码或管理集群的便利性。
摘要由CSDN通过智能技术生成

S3是AWS非常核心的一个存储服务。由于S3具有极强的扩展性、数据持久性、极低成本和高安全性,很多AWS用户会在一个S3存储桶上存储超过百万甚至过亿个的对象。这些对象通常是图像、视频、日志文件、备份或其他关键的业务数据。S3是很多AWS用户数据存储架构的重要组成部分,也是用来构建数据湖解决方案的基础。

那如何在S3通过简单快捷的方式来处理数百万甚至数十亿对象呢?可以考虑使用S3 Batch Operations(批量操作)功能!通过S3批量操作功能,在S3控制台上通过几次鼠标点击就可以实现批量将对象复制到另一个存储桶、设置对象标签或ACL、触发Glacier/Deep Archive对象还原或者是对每个对象触发指定的Lambda函数进行处理。

S3批量操作功能通过S3现有的清单报告(Inventory Report)或手动编写CSV文件来指定需要操作的对象集合。用户不需要编写任何代码,也不需要启动虚拟机集群,更不需要了解如何将批量操作任务进行分解并分发到虚拟机上进行执行。借助S3批量操作功能,用户只需要在控制台上通过几次鼠标点击即可在数分钟内创建一个作业(Job)并提交,通过S3大规模并行处理机制进行海量对象的批量操作。通过S3控制台、命令行或API,用户可以创建、监控和管理批量操作作业。

基本概念

在开始使用S3批量操作功能并创建作业前,我们需要先了解一些基本的概念:

存储桶(Bucket):一个S3存储桶可以存放无限数量的对象,并提供对象级别的多版本管理功能

清单报告(Inventory Report):  清单报告是S3后台每天或每周定期对存储桶进行检查并生成对象清单列表。清单报告可以包含存储桶中所有对象,或只包含某些前缀(prefix)的对象。

清单(Manifest): 指定需要进行处理的对象集合,可以是清单报告,也可以是CSV文件

操作(Operation):期望对目标对象执行的动作。对某个对象执行动作称之为一个任务(Task)。

IAM 角色(IAM Role): 通过IAM角色赋予S3相应的权限,以便读取清单报告、对目标对象执行特定的动作以及写入完成报告。如果执行动作是调用Lambda函数,则需要确保Lambda函数的执行角色(Execution Role)具有相应的权限

作业(Job):每个作业会包含上述提到的要素,同时每个作业均有状态和优先级。

演示

接下来我们演示如何通过S3控制台创建并运行一个批量替换对象标签的作业。

在S3控制台左边可以看到批量操作功能的入口并创建作业

另外我们也可以选择从清单创建作业:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值