亚马逊云存储服务:数据驱动创新的基础
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, S3 Tables, Amazon Cloud Storage, Data Driven Innovation, Storage Service Limits, Metadata Management, Generative Ai Training]
导读
亚马逊云科技存储服务是数据驱动创新的基石,为现代企业提供了必要的构建模块。在本次讨论中,我们将探讨亚马逊云科技存储服务的基本特性——高耐久性、可用性、可扩展性和性价比,如何使组织在几乎任何工作负载场景中都能出色表现。从推动尖端的AI/ML计划,到实现实时分析和支持业务关键型应用,亚马逊云科技存储服务提供了当今快节奏数字环境中所需的敏捷性和弹性。了解企业如何利用这些功能加速洞察、推动业务增长,并在各种行业和用例中推动变革性创新。
演讲精华
以下是小编为您整理的本次演讲的精华。
在2024年的亚马逊云科技 re:Invent大会上,亚马逊云科技副总裁兼Distinguished Engineer Andy Warfield发表了一场引人入胜的主题演讲。Warfield首先将摄影技术的演进与几十年来存储系统的发展进行了对比。他回顾了从胶片摄影时代人们自己冲洗照片,到数码相机出现,再到后来集成了相似性搜索和人工智能/机器学习等先进技术,使公司能够通过组装metadata和在捕获的图像之上创建扩展,从而构建丰富的工具。
Warfield随后巧妙地过渡到了存储系统的演进,强调了早期存储阶段人们将服务器作为存储目标进行构建,与当今基于云的存储服务之间的相似之处。他幽默地提到,在黑暗房里冲洗的照片中随处可见马桶的景象,将企业阵列迁移的体验比作在浴室里冲洗胶片的感受。
强调了亚马逊云科技存储系统的规模,Warfield透露,十年前S3刚刚拥有不到100个客户,每个客户的数据量超过1PB,当时这已是一个了不起的成就。然而,如今S3拥有数以千计的客户运营在这个规模上,有些甚至达到了EB级别。值得注意的是,S3服务在18年来一直保持一致,无需客户担心配置或其增长的复杂性,就能透明地进行扩展。
Warfield接着深入探讨了S3的内部运作,分享了硬盘技术的创新。他惊叹于现代硬盘的复杂性,其磁头就像唱片机的针一样,漂浮在旋转盘产生的空气对流上,飞行高度仅为1纳米,约10个碳原子的厚度。尽管这些硬盘的数据密度令人难以置信,但Warfield指出,硬盘制造商持续创新,使每年的存储容量都有所提高。
为了保持成本效益并容纳不断增长的数据产生量,亚马逊云科技一直在采用最大可用硬盘,将更多数据压缩在更小的空间内,同时降低功耗。然而,Warfield承认硬盘带来了独特的挑战:随着存储密度的提高,每个硬盘的每秒操作数会因旋转电机和移动臂的机械限制而降低。为了应对这一挑战,亚马逊云科技的存储团队不断创新,以提高效率和性能。
Warfield强调的一项创新是利用亚马逊云科技 Nitro虚拟化硬盘,转向使用分离式存储机架。通过消除硬盘机架的复杂性,并利用标准的无盘EC2计算实例进行软件管理,亚马逊云科技获得了更大的灵活性来采用新硬盘并优化计算资源。
Warfield随后深入探讨了数据热力学的概念,解释了亚马逊云科技如何在数百万个硬盘之间聚合和平衡工作负载。他将数据比作具有内在热力学特性,存储的数据大多数时候处于空闲状态,在单租户存储系统中会产生浪费的容量谷。然而,通过在多租户系统(如S3)中聚合多个租户,亚马逊云科技实现了整体存储工作负载的平滑效应,使单个客户能够获得比自己的系统更高的存储性能。
Warfield还强调了数据随着时间推移而“冷却”的现象,较新的数据往往更“热”,访问频率更高。为了缓解向机架添加新的“热”数据时产生的局部热量,亚马逊云科技有意识地在整个存储系统中平衡数据分布,先用较“冷”的数据填充新机架,然后再将其投入使用,为客户请求提供服务。持续在S3存储系统中重新平衡数据,确保了I/O资源匮乏的硬盘获得最佳性能和利用率。
转向亚马逊云科技存储服务中消除限制的话题,Warfield承认客户普遍希望拥有无限制的系统,能够像S3的容量一样无缝扩展。他接着强调了亚马逊云科技在过去一年中消除或放宽的几个限制。
对于面向企业的存储产品集合Amazon FSx,OpenZFS团队解决了基于SSD版本对于拥有大量冷数据集的客户来说成本过高的问题。通过重新设计OpenZFS以处理冷数据,并智能地使用S3作为成本效益更高的后备存储进行分层存储,该团队实现了比基于SSD版本低85%的成本,并比在企业硬盘阵列上托管相同工作负载的成本低20%。
Warfield还强调了各种亚马逊云科技存储服务的性能提升。EFS(Elastic File System)团队实现了每个文件系统读取IOPS提高10倍,文件系统吞吐量提高2倍至每秒60GB。同样,受大规模生成式AI训练工作负载欢迎的FSx Lustre团队与EFA(Elastic Fabric Adapter)集成,实现了每个客户端高达每秒150GB的吞吐量。
针对S3客户长期以来的一个痛点,Warfield宣布将每个账户的存储桶限制从100提高到1,000,000。他分享了一个客户为管理组织内的存储桶创建而专门指派了一名名为“Skip”的人的轶事,突出了这一限制在现实世界中的影响。Warfield强调了在这一过程中获得的工程经验教训,包括需要引入分页API来列出存储桶,以适应规模的增长。
在过去四年中,亚马逊云科技推出了超过800项与存储相关的功能和增强,其中大部分工作都集中在透明扩展和对客户不可见的优化上。Warfield承认,当亚马逊云科技做对了,客户就可以专注于他们的数据,而不必担心存储问题。
Warfield随后介绍了亚马逊云科技 Express One Zone,这是一种低延迟、高性能的S3版本,使用SSD并存在于单个区域以获得更快的响应时间。Express One Zone提供10倍更快的性能和50%更低的请求成本,使其更适用于作为活跃数据工作负载的直接主存储。客户反馈表明,通过将活跃工作负载迁移到Express One Zone,他们实现了总拥有成本(TCO)的降低,因为更快的I/O使计算作业能够更快完成,从而降低了整体计算成本。
为响应客户反馈,Express One Zone团队引入了追加API,可以高效地收集和聚合数据(如日志),然后再将它们移动到S3 Standard。他们还添加了生命周期过期支持,以限制数据在Express中的驻留时间,并与S3 Mount Point集成了共享读取缓存,用于基于文件访问S3数据。
Warfield接着将讨论转向了数据湖和湖屋,强调了Parquet文件格式在S3上表示结构化表格数据的兴起。每秒服务于1500万个Parquet对象的请求,每天提供数百PB的Parquet数据,这种数据格式已成为S3上最大和增长最快的数据类型之一。
随着数据湖分析用例变得越来越复杂,Warfield解释了开放表格式如Apache Iceberg的兴起,它在Parquet之上提供了一个metadata层,支持具有插入和更新操作的一级表。然而,在大规模运行Iceberg时,客户会感到痛苦,因为他们必须手动维护和优化数据,包括压缩小的Parquet文件和收集已删除的快照。
为解决这一挑战,Warfield宣布推出S3 Tables,这是S3内部的一个托管Iceberg表抽象。S3 Tables提供三个关键优势:在命名空间和存储堆栈内的优化,可提高高达3倍的查询性能和更高的TPS;基于IAM的表级访问控制;以及由亚马逊云科技持续进行的表维护和优化,生成更大、更高效的Parquet文件。
接下来,Warfield邀请了Nubank的Kat Swettel分享他们使用S3以及存储桶限制增加的经验。Kat讨论了Nubank广泛使用S3,存储了超过325PB的数据,每月发出180万亿次S3 API调用。由于Nubank在2022年接近存储桶限制,他们在Common Technology Platforms内建立了一个集中的Storage域,用于管理和预测S3资源使用情况。
Nubank实施了治理和清理未使用或使用率低的S3存储桶的策略,以及为不需要与计算资源共存的资源创建专用存储账户。通过这些措施,Nubank达到S3存储桶限制的倒计时延长至430多年,使他们能够进一步依赖S3。Kat强调了Nubank最近处理超过1PB日志的里程碑,这是由他们内部开发的基于S3的日志平台支持的。
接下来,罗氏制药公司的Ashwini Sonder登台,强调医疗保健行业是所有行业中数据产生量最大的,贡献了近30%的数据。Sonder强调,数据在罗氏推进科学和向全球患者提供创新药物和解决方案的过程中发挥了重要作用。
Sonder阐述了医疗保健系统面临的变化需求,包括人口老龄化、资源紧张以及患者需求不断演变,患者对管理自身健康状况的意识和权力也在增强。到2025年,医疗保健数据的年增长率预计将达到36%,远远超过制造业和媒体行业。
Sonder分享了一个用例,展示了罗氏如何利用从早期发现到临床一线的整个价值链中的数据。只有5%的数据来自随机临床试验,95%的数据存在于现实世界环境中,将非结构化数据转化为结构化见解是一个重大挑战。罗氏整合了40多个不同的数据源,包括非结构化、半结构化和结构化数据,总计超过100TB,每天有3000次数据摄入。
Sonder强调在大型组织内建立高度连接和协作的数据生态系统的重要性,引入了“数据即产品”的思维概念。这种方法将数据视为一种宝贵的资产,需要进行策展、清理,并可能进行目录集成或针对特定数据类型的API,作为其他团队集成的中央资源。
Sonder分享了一个具体的用例,旨在减轻医疗专业人员的数据管理活动负担,他们通常会花费40-50%的时间进行此类工作。通过利用人工智能和MLOps支持的技术和架构,罗氏旨在减轻信息收集和管理的负担,让医疗专业人员有更多时间照顾患者。
Sonder强调了他们解决方案的关键技术组件,包括建立在S3之上的坚实数据存储,与分析工具集成,并得到主数据、参考数据和术语管理等强大的数据管理能力的支持。她赞扬了S3在其生态系统中无缝集成、可扩展性和经济高效性。
回顾这次经历的教训,Sonder强调投资建立坚实的数据基础、确保数据线索、目录和元数据治理的重要性。她还强调需要投资提升人员技能,利用新技术,彻底简化架构,替换遗留系统,避免使用阻碍可扩展性和技术发展的整体平台。
Warfield重新回到舞台,呼应了Sonder的观点,强调了各种客户中非结构化数据集成的兴起,以及看到数据湖和分析实践能够加快创新的令人振奋。他还承认了“数据产品”一词的使用,用于描述经过策展的有价值的数据集,作为组织内集成的中央资源。
Warfield随后谈到了客户应对大量数据的反复主题,不将其视为负面,而是见证了可以在其基础上构建的巨大价值和潜在应用。他强调了从存储管理转移到查找、策展和构建可用数据集的重点转移,并强调了元数据在这一过程中的重要性。
Warfield以电影摄影师面临的元数据挑战作为类比,他们经常保留日记来记录关于照片的细节,然后介绍了一个元数据在现代数据应用中的具体例子。他分享了访问Adobe时的见解,在那里他与负责训练生成基础模型的数据平台的Arash Farzan会面。
Adobe的训练管道利用从存储在S3中的数百万张库存照片中提取的元数据。除了图像元数据和标题外,Adobe的团队还为边缘检测、深度感知,甚至图像文本摘要构建元数据。然后查询这些元数据、将其组合成规范表,并切分供GPU训练集群使用,使生成图像模型能够理解和学习丰富的上下文信息。
虽然承认策展元数据的价值,但Warfield也认识到了相关的痛点,如构建数据管道来监控存储的数据、设计元数据存储,以及与外部工具集成。为了解决这些挑战,他宣布了S3 Metadata的预览版,这是一项新功能,可自动索引和存储S3中对象的元数据到S3表中。
S3 Metadata的结构类似于摄影师的日记,每当在存储桶中发生数据变化(如对象创建、删除和元数据更改)时,都会生成一行信息。这个可查询的系统表由亚马逊云科技维护并保持最新状态,为对象提供了丰富的元数据集,支持强大的数据发现、线索跟踪,以及增强和查询用户定义的元数据字段和对象标签的能力。
Warfield最后重申了亚马逊云科技致力于不断发展其存储服务以满足客户需求的承诺,通过客户对存储的思考越少而更多地关注数据和应用来衡量成功。他鼓励与会者尝试在主题演讲中宣布的新功能。
总之,Andy Warfield在亚马逊云科技 re:Invent 2024大会上的主题演讲涵盖了与亚马逊云科技存储服务相关的广泛主题。他深入探讨了S3的内部运作和规模,强调了各种服务的最新改进和限制移除,并宣布了新产品如S3 Tables和S3 Metadata。来自Nubank和罗氏的客户发言人分享了他们的经验和用例,强调了强大的数据基础、元数据和“数据即产品”概念的重要性。在整个主题演讲中,Warfield强调了亚马逊云科技致力于通过不断发展和优化其存储服务,使客户能够专注于他们的数据和应用程序。
下面是一些演讲现场的精彩瞬间:
Andy是一位亚马逊云科技工程师,他为在reInvent2024活动上演讲时出现的技术困难表示歉意。
Amazon FSx OpenZFS引入了智能分层到S3,与基于SSD的FSx相比,成本降低了85%,同时实现了出色的数据移动速度。
Nubank通过集中治理、预测和清理工作,主动缓解S3存储桶限制,确保了运营的顺利进行。
强调了管理和策划大量数据以发掘其潜在价值并实现快速应用程序开发的重要性。
Andy Jassy强调了元数据的重要性,并将现代数据存储与胶片摄影的挑战作了类比,摄影师们不得不记录日志来跟踪照片。
Adobe创新的训练流水线利用元数据和GPU,使用数百万张库存照片训练生成式图像模型,实现了先进的图像理解和生成。
Andy Jassy强调存储已经演变为更加无缝,并积极促进跨摄影、视频、音频和PDF等各种数据类型的数据处理,使应用程序能够更高效地处理数据。
总结
在这个引人入胜的叙述中,Andy Warfield作为亚马逊云科技的副总裁和Distinguished Engineer,带领我们一同探索亚马逊云科技存储服务的演进历程,揭示了支撑S3无缝扩展和卓越性能的精妙工程奇迹。他深入探讨了数据的热力学、优化硬盘性能的巧妙技术,以及为客户不断消除限制、提高简单性的不懈追求。
Warfield介绍了开创性的创新,如S3 Tables,这是一种托管的Iceberg表抽象,可提供高达3倍的查询性能和10倍的TPS;以及S3 Metadata预览功能,可自动为S3中的对象索引和存储元数据,实现丰富的查询和数据发现。他还强调了将存储桶限制提高到1,000,000的举措,赋予了程序化创建和管理存储桶的能力。
穿插在Warfield见解中的是来自Nubank的Kat Swetzel的证言,她分享了提高存储桶限制如何缓解了他们的扩展挑战;以及来自罗氏制药的Ashwini Sonder的见解,她强调了数据基础、人员和简单性在利用数据推动医疗保健创新方面的关键作用。这个叙述以一个令人信服的愿景画上句号,将存储视为一种积极的推动力,让组织能够真正发挥数据的潜力。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。