使用 Amazon S3 Glacier 最大化冷数据的价值

关键字: [Amazon Web Services re:Invent 2023, Amazon S3 Glacier, Data Storage, Cold Data Management, Amazon S3 Glacier Storage Classes, Data Retrieval, Bulk Data Restore, Amazon Athena]

本文字数: 1900, 阅读完需: 10 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1W64y1j7xt

导读

世界上大多数数据都是冷数据,但随着高级分析以及对机器学习和生成式 AI 模型需求的增加,这些数据随时都可能被投入使用。在本论坛中,您将了解如何使用 Amazon S3 Glacier 存储类来实现数据存档的现代化,并以经济高效的方式存储长期数据,而无需担心昂贵的磁带驱动器或外部存档数据。在考虑成本和检索性能的同时,了解以 PB 级规模摄取和恢复数据的选项。

演讲精华

以下是小编为您整理的本次演讲的精华,共1600字,阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

亚马逊冰川S3的产品经理Ruhi Sooth在其演讲开始时提到,各行各业的企业正重新审视其策略,以便归档和保存不常访问的数据,这被称为冷数据。随着全球数据呈指数级增长,各大组织产生的冷数据量也在不断增加。事实上,研究发现,世界上60-80%的数据可以被视为冷数据,即通常不会在日常工作中被访问或使用。

Ruhi接着解释了企业保留冷数据而非将其删除的原因。一个常见的例子是长期保存高质量的原始资源,如在媒体和娱乐行业中使用的电影或电视拍摄的原始镜头。尽管这些镜头可能在拍摄后的几个月或几年内都不会被访问,但保留它们使得创意团队能够灵活地回顾过去,提取用于制作未来宣传视频、幕后特写等内容的内容。

另一个主要驱动力是灾难恢复和业务连续性规划。企业通常会备份关键数据库、服务器和其他基础设施,以防止出现故障、数据损坏或其他问题。虽然这些备份通常不希望被使用,但在冷存储中保留它们为企业提供了保障。

此外,像医疗保健和金融这样受严格监管的行业必须根据法规要求保留某些数据,如患者记录或金融交易,长达许多年。虽然这些信息每天都会被访问,但组织必须遵守保留政策,并利用冷存储来降低成本。

Ruhi指出,冷数据的一个新兴用例是为未来的机器学习和人工智能应用保存原始专有资产。例如,她提到了自动驾驶汽车公司,它们捕捉并存储来自汽车摄像头的大量图像数据。虽然目前仅有一小部分这些图像对用于训练自动驾驶功能的机器学习模型是必要的,但这些公司意识到保留更广泛数据集存档的未来价值。随着他们的项目和算法的发展,拥有大量驾驶数据可能会证明是非常宝贵的。

在所有这些涉及冷数据的用例中,成本优化是一个关键驱动因素。将大量不常访问的数据存储在高性能、针对热数据的存储系统中将会非常昂贵。据Ruhi介绍,亚马逊S3为客户提供了针对不同访问模式的一系列优化存储级别,从S3标准频繁访问层到最低的档案馆层,如S3冰川深度档案馆,这是可用的最低成本的云存储,每月每TB仅需1美元。

Ruhi随后详细讨论了专为各种归档数据设计的三款主要的S3冰川存储类别:

首先,S3冰川即时检索针对客户需要能够以毫秒级延迟访问少量归档数据的情况进行了优化。一个相关的使用案例是广播新闻组织维护大量历史镜头存档。当发生重大新闻报道事件时,编辑可以快速从档案中检索相关片段,以迅速为故事添加背景和价值。能够立即访问已归档内容的精选部分使新闻团队在制作有影响力的报道方面具有灵活性。

其次,S3冰川灵活检索提供在分钟到小时内成本效益地恢复大量数据的能力。这非常适合定期大规模访问的使用场景,如季度财务报告和分析。公司可以从档案中恢复整个季度的交易和数据,以生成见解并编制必要的文件和文档。冰川灵活检索的另一个好处是对趋势进行分析。分析师可以从档案中恢复大量数据集来查找历史模式和异常。

Ruhi介绍的第三个归档层是S3冰川深度档案馆,这是最低成本的选择,每月每TB仅需1美元。这个层次适用于很少访问且恢复时间可接受为12-48小时的数据。常见的使用场景是合规驱动的数据保留,企业必须存储某些数据多年以满足监管要求,以及为潜在的未来机器学习模型开发保存原始专有数据集。

鲁希(Ruhi)向客户推荐在选择归档层次时考虑三个关键因素:工作负载所需的检索速度、存储成本以及规定的数据保留期限。接下来,她探讨了亚马逊S3中的智能分层和生命周期管理功能,这些功能有助于根据访问模式和要求自动化数据向适当归档层转移。S3智能分层通过监测存储桶中对象的访问模式来自动执行对象至较冷层的过渡。如果在90天内未访问的对象将被移动至冰川层;如果对象随后被访问,智能分层会将其移回频繁访问存储。这种自动分层只需每月支付少量监控费用,而无需支付过渡费用。

亚马逊S3生命周期策略允许客户根据特定业务需求定义更定制的过渡计划。规则可以被配置为根据对象年龄将对象过渡到较冷的层,或者可以设置过滤器以根据前缀、标签或其他标准定位子集数据。鲁希提供了重要提示:在生命周期策略中使用对象大小过滤器。对于大型对象,过渡成本可能微不足道,但对于微小对象,过度成本可能会超过任何节省的成本。亚马逊S3 Storage Lens可以帮助分析对象大小分布以优化策略。

鲁希分享了Snapchat如何利用亚马逊S3标准和亚马逊S3冰川来管理Snap Memories存储快速增长的案例。通过在冰川即时检索中存档2艾字节的数据,Snap在继续创新其平台的同时,节省了几千万美元的成本。

尽管如今可能不太常用,但仍需将原始数据存储在Glacier中,以便未来AI的使用。

  • 评估并选择与访问需求最匹配的合适Glacier等级。

  • 采用批量检索策略,以降低Glacier恢复成本。

  • 通过Athena直接查询Glacier数据,而不需要先将数据复制到S3标准。

总的来说,演讲主要讨论了公司如何利用更新后的归档策略从冷数据中挖掘更多价值。演讲内容详细解释了如何选择合适的Glacier存储类别、实现数据自动分层以及提高大规模恢复性能和成本效益等方面的具体方法。通过多个客户的实际应用案例,展示了这些策略在降低成本方面的显著效果。此外,Glacier恢复速度的提高和与Athena的集成为我们带来了更多的机会,使我们能从存档数据中发现有价值的洞察。

下面是一些演讲现场的精彩瞬间:

鲁希·索思(Ruhi Sooth)作为亚马逊冰川(Amazon S3 Glacier)的产品经理,在亚马逊云科技(Amazon Web Services)的re:Invent上向观众介绍了她和她的团队。

亚马逊云科技(Amazon Web Services)为诸如医疗保健和金融等高度受监管行业提供合规性档案存储解决方案。

这些客户可以利用亚马逊云科技高效地存储大量数据,只需立即访问相关数据,同时将其他数据归档以应对未来的机器学习需求。

会议上,领导强调了亚马逊最受欢迎的存储类别,包括S3标准、冰川和冰川深度存档。

他们讨论了如何利用亚马逊冰川的即时检索功能,使医疗专业人员能够在做出关键医疗决策时需要立即访问已归档的患者数据。

此外,他们还讨论了如何使用亚马逊冰川的灵活检索功能来生成季度财务报告。

会议现场提供了关于如何使用亚马逊冰川最大限度地发挥冷数据价值的免费电子书的QR码。

总结

亚马逊冰川(Amazon S3 Glacier)为数据归档和长期备份提供了低成本、安全且耐用的存储解决方案。随着数据的指数级增长,企业正越来越多地储存用于未来人工智能和机器学习应用的冷数据。

亚马逊冰川的产品经理Ruhi Sooth解释道,大部分数据很快便会成为冷数据,其中60-80%的数据被很少访问。她列出了三个主要应用场景:保存用于未来处理的原数据、备份以及满足法规要求的长期保留。

接着,Sooth介绍了三种冰川存储类别:即时检索(Instant Retrieval)适用于以毫秒速度访问少量数据,灵活检索(Flexible Retrieval)适用于以低成本在几小时内访问大型数据集,深度存档(Deep Archive)则是用于罕见访问数据的最低成本选项。她建议根据所需的检索速度、存储成本和数据保留期限来选择一类。

智能分层和生命周期策略可以自动将数据过渡到更冷的层以优化成本。Sooth分享了一个技巧:在使用生命周期策略中,通过对象大小筛选器来最大化节省。她提供了一个客户示例,Snapchat利用冰川即时检索来节省成本,同时扩大存储容量。

Nish Pande回来探讨如何从冷数据中获得最大价值。他概述了在规模上提交冰川恢复请求的最佳实践,使用S3批量操作。事件通知可以在恢复完成时触发工作流。最近的改进使得标准恢复速度从灵活检索提高了85%,并添加了雅典娜支持,可以直接查询恢复的数据。

总之,冷数据对于人工智能的重要性日益增加,需要根据访问需求选择合适的冰川类别,使用批量和批量恢复以降低成本,并利用更快灵活检索和雅典娜集成等新功能以获得更多价值。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134814238

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值