亚马逊FSx和亚马逊EFS的最新动态

亚马逊FSx和亚马逊EFS的最新动态

关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, Amazon FSx for OpenZFS, File Storage, Managed Nas, High-Performance Computing, Cloud Native Applications, Data Resilience]

导读

亚马逊文件存储服务持续创新,帮助企业客户和存储管理员更有效地管理他们的文件数据。深入了解旨在增强文件数据可访问性并与现代云应用程序集成的最新功能。探索Amazon EFS和Amazon FSx的共享文件存储如何发展以满足计算密集型和数据密集型工作负载的需求。学习关于优化存储、提高数据可访问性以及支持不断增长的企业应用需求的可行洞见。加入我们,利用Amazon FSx和Amazon EFS的前沿功能推动您的业务发展。

演讲精华

以下是小编为您整理的本次演讲的精华。

数据存储和文件管理领域正在不断发展,亚马逊云科技走在这一发展的前沿。在备受期待的re:Invent 2024大会上,Prashant Bungli和Christian Smith登台,展示了亚马逊文件存储服务Amazon Elastic File System (EFS)和Amazon FSx的最新进展。他们的演讲阐明了亚马逊云科技为应对客户在管理数据扩散、扩展性能和确保弹性方面所面临的日益增长的挑战而开发的创新解决方案。

Bungli负责亚马逊云科技的FSx托管NAS服务套件,Smith则是全球存储专家GTM团队的负责人。他们首先概述了亚马逊云科技所服务的三种主要文件存储使用模式。首先,他们为需要云中网络附加存储(NAS)解决方案的用户共享和企业应用程序提供服务。对于这些客户,亚马逊云科技在Amazon FSx上提供各种NAS文件系统,使现有本地NAS部署能够无缝迁移到云端,无需重新架构应用程序或重新培训用户。这种一对一迁移方式确保了平稳过渡,允许客户利用他们习惯的相同功能和API,无论是NetApp ONTAP部署、Windows文件服务器设置,还是ZFS或Linux文件服务器配置。

亚马逊云科技解决的第二种使用模式是计算密集型工作负载,包括高性能计算(HPC)、人工智能(AI)和机器学习(ML)应用程序。对于这些高要求的工作负载,亚马逊云科技提供基于世界上最受欢迎的高性能文件系统Lustre构建的Amazon FSx for Lustre。该解决方案提供了快速、经济高效的存储,能够跟上不断增长的计算规模需求,同时保持亚毫秒级的低延迟。FSx for Lustre可以扩展到巨大的性能水平,允许客户将数十万个计算核心挂载到单个文件系统上,并为该计算规模提供存储。Lustre在各种HPC用例中广泛应用,从石油和天然气模拟、金融分析到现代机器学习和AI工作负载,包括生成式AI模型训练和微调。此外,FSx for Lustre还提供了一种功能,使客户能够轻松将其连接到存储在Amazon Simple Storage Service (S3)中的现有数据。

亚马逊云科技服务的第三种使用模式是云原生应用程序和需要“开箱即用”存储的开发人员。对于这些客户,Amazon EFS提供了一种简单、无缝的文件共享解决方案,可与计算实例、容器和无服务器功能无缝集成。EFS提供了具有自动分层和一系列低成本层的成本优化存储,使开发人员和构建者免于配置和供应存储资源的复杂性。

自上次re:Invent大会以来,亚马逊云科技已为其文件存储服务推出了20多项新功能,并在re:Invent 2024活动期间推出了另外六项新功能。这种平均每两周推出一项新功能的快速创新步伐,彰显了亚马逊云科技不断增强其产品以满足客户不断变化需求的决心。

亚马逊云科技在文件存储方面的投资主要集中在三个对客户最为重要的核心领域:管理数据扩散、提高性能可扩展性和增强弹性。随着数据规模不断增长,客户面临着管理这种增长、控制成本和确保不断扩大的数据集的弹性的挑战。亚马逊云科技意识到了这一挑战,并推出了创新解决方案来应对。

其中一种解决方案是新推出的适用于Amazon FSx for OpenZFS的FSx智能分层存储类。该产品将NAS的熟悉性与跨三个层(频繁访问层、不频繁访问层和即时访问存档层)的全弹性和智能数据分层的优势相结合。类似于Amazon S3智能分层,新的存储类会自动在频繁访问层、不频繁访问层和存档层之间分层数据。这种智能分层旨在为NAS数据集提供最佳成本和性能,使客户能够将他们最大的数据集带入云端,并利用亚马逊云科技的广度和深度来更好地利用他们的数据。

FSx智能分层存储类包括三个层次:频繁访问层、不频繁访问层和即时访问存档层。它为冷数据提供了两个更低成本的层,但所有数据都可以即时检索,所有层的首字节延迟在几十毫秒内。为了保护应用程序和用户免受底层存储的延迟影响,并提供一致的一毫秒写入延迟,该存储类使用内置SSD写入日志。此外,还可选择使用SSD读取缓存,为延迟敏感或IOPS密集型工作负载提供频繁访问数据的低延迟读取。

FSx智能分层存储类的定价模式与S3智能分层保持一致,提供了熟悉且经济高效的方式。客户根据数据所在的层级,每月按每GB付费,演示期间显示的美国东部1区价格为:频繁访问层每GB 0.09美元、不频繁访问层每GB 0.03美元、即时访问存档层每GB 0.01美元。此外,还会按每GB每月收取0.0008美元的小额费用,用于监控和自动化,负责自动在各层之间分层数据,而不是像S3那样按对象收费。访问数据时,客户无需为SSD存储预配置特定数量的IOPS。相反,他们可以根据工作负载需求执行任意数量的读取请求(每百万读取请求0.08美元)和写入请求(每百万写入请求0.16美元),直至文件系统的限制,并按请求全弹性付费。

在性能可扩展性方面,亚马逊云科技做出了几项重大公告,以应对不断增长的计算密集型工作负载的需求。对于FSx for Lustre,客户面临的一个关键挑战是metadata IOPS与分配的存储容量成正比。这给metadata密集型工作负载带来了挑战,如计算化学、涉及数百万或数十亿小文件的ML研究,以及天气模拟等领域的视觉模拟。客户要么耗尽metadata IOPS,导致GPU或CPU由于资源饥渴而运行时间延长,要么必须超配置存储以扩大相关的metadata IOPS。

为解决这一问题,亚马逊云科技推出了将metadata IOPS供应与存储分配解耦的功能,该功能建基于Lustre的分布式命名空间(DNE)特性。这项开创性的功能使客户能够实现比以前版本高出6倍的metadata IOPS,每个文件系统可支持数十万个metadata IOPS。通过横向扩展metadata操作并独立于存储容量,客户现在可以确保他们的CPU保持繁忙,而无需为不必要的资源付费或超配置存储。

FSx for Lustre的性能改进不仅限于metadata IOPS。亚马逊云科技已将文件创建限制提高到每秒可支持40万个文件创建,这对于将大文件分解为较小文件以跨多个核心进行分布式计算的工作负载至关重要。文件stat操作(用于检查文件是否存在,以促进多阶段工作负载的同步工作)现在每秒可支持3000个操作,提高了7倍。此外,读取文件metadata的文件读取操作也提高到每秒3000个操作,再次提高了7倍,从而实现了跨高度分布式计算环境的高效同步和协调。

AI和机器学习工作负载在性能需求方面与HPC有相似之处。这些工作负载通常涉及数千个GPU实例,用于训练、微调和创建下一代大型语言模型(LLM)。这些工作负载中的数据模式通常包括多次读取数据集并跨所有GPU实例将检查点写回存储。确保对数据的低延迟访问至关重要,以保持昂贵的GPU资源充分利用,最小化空闲时间,从而缩短实际的美元成本和训练时间。

为解决这一挑战,亚马逊云科技已宣布为FSx for Lustre支持Elastic Fabric Adapter(EFA)和NVIDIA GPU Direct。这些加速功能将每个实例的吞吐量提高了12倍,达到了令人印象深刻的1.2 TB/s。这使得FSx for Lustre成为云中GPU实例最快的存储性能解决方案,使客户能够更快完成AI/ML训练工作,从而降低整体工作负载成本。

EFA利用了可扩展可靠数据报(SRD)协议,这是一种轻量级的节点间协议,允许CPU和GPU实例之间进行低延迟、高性能通信。通过使用SRD协议参与该网络,FSx for Lustre可以提高从网卡到主内存使用RDMA的性能,绕过主机OS缓冲区直接为应用程序提供数据。每个客户端的吞吐量从100 Gbps增加到800 Gbps,缩短了延迟窗口,并将延迟曲线降低到p99.9类别。

NVIDIA GPU Direct将这种加速进一步推进了一步,使数据能够直接从网络接口传输到GPU,完全绕过CPU复杂系统和内存。这对于GPU密集型工作负载至关重要,因为在将数据从网络接口移动到主内存,然后再移动到GPU时,CPU可能会成为瓶颈。EFA和GPU Direct的组合为基于NVIDIA的GPU复杂系统带来了12倍的每实例吞吐量提升,从100 Gbps提高到1.2 Tbps。

对于使用FSx for NetApp ONTAP的客户,亚马逊云科技于2023年8月9日推出了第二代FSx文件系统。这种新产品为FSx环境提供了更大的灵活性和性能。客户现在可以从单个HA对开始,并动态、无中断地添加更多对来扩展其性能和吞吐量需求。第二代文件系统还允许客户独立扩展网络吞吐量,从而对存储基础架构拥有更大的控制权。

除了可扩展性增强外,第二代FSx文件系统还提供了更高的吞吐量和每个HA对的性能。吞吐量从每个实例4 Gbps提高到6 Gbps,而IOPS从每个HA对的160K提高到200K,并且随着添加更多对,这些改进可以叠加。

亚马逊云科技还为FSx for NetApp ONTAP上的基于块的工作负载引入了对NVMe over TCP的支持。这一功能使客户能够利用NetApp的数据管理功能,如FlexClones和快照,同时为其高要求的数据库应用程序受益于NVMe over TCP的低延迟性能。

此外,第二代FSx文件系统解决了客户在备份恢复期间面临的一个常见挑战。以前,客户必须等待整个备份完成后才能启动应用程序。使用新的文件系统,一旦备份进程开始,客户就可以立即启动应用程序,亚马逊云科技将在访问数据时加载数据,并在后台继续加载数据,直到恢复完全完成。这一增强功能使恢复时间比之前版本提高了17倍。

转向Amazon EFS,亚马逊云科技在解决客户在运行数据密集型构建工作负载时面临的性能挑战方面取得了重大进展,例如探索性数据分析、机器学习推理、软件即服务应用程序以及对性能要求极高的业务线应用程序。

客户面临的一个主要挑战是难以根据数据增长和应用程序变得更加苛刻来调整应用程序性能所需的预配置吞吐量水平。此外,客户在将数据划分到多个文件系统并组织数据以有效支持工作负载的总体需求方面也存在困难。

为了解决这些挑战,亚马逊云科技大约两年前推出了Amazon EFS的Elastic Throughput。这种完全弹性的性能模型消除了提前预配置吞吐量容量的需求。客户只需启动应用程序,吞吐量容量就会自动扩展以满足需求,客户只需为所使用的部分付费。这种方法简化了性能规划,并提供了更具成本效益的解决方案。

除了Elastic Throughput之外,亚马逊云科技还持续投资于Amazon EFS的性能改进。在过去两年中,该服务在可扩展性方面取得了显著增强,读取吞吐量从大约3 Gbps提高到30 Gbps,读取IOPS从35,000提高到250,000。这些改进代表了十倍的可扩展性增长,体现了亚马逊云科技确保Amazon EFS能够跟上客户不断增长的需求的承诺。

在2024年的re:Invent大会上,亚马逊云科技宣布了Amazon EFS的另一组重大性能改进。读取IOPS从250,000提高到每个文件系统令人印象深刻的250万IOPS,增长了十倍。写入IOPS从每个文件系统的25,000提高到50万IOPS,增长了二十倍。此外,读取吞吐量从30 Gbps提高到60 Gbps,这是在大会前几周刚刚推出的。

结合Elastic Throughput模型,客户可以自动扩展性能以满足需求并只为所使用的部分付费,这些性能增强确保客户无需再为绝大多数工作负载担心性能规划或保持在可扩展性限制范围内。Amazon EFS实现的惊人高性能水平消除了客户甚至考虑性能限制的需要,使他们能够专注于核心业务目标。

除了管理数据扩散和提高性能可扩展性外,亚马逊云科技还大力投资于提高其文件存储服务的弹性。客户越来越需要业务连续性、灾难恢复和遵守各种法规(尤其是在受监管行业)的解决方案。这些需求源于保护数据免受恶意和非恶意威胁的需要,并确保在账户受损或发生其他事件时能够恢复运营或访问数据。

为了满足这些要求,亚马逊云科技推出了几项新功能,重点是创建数据冗余并实现灾难恢复策略。2023年8月,亚马逊云科技为Amazon EFS Backup推出了逻辑隔离(LAG)保险库。这些通过Amazon Backup执行的保险库提供了客户数据的不可变备份副本,这些副本完全锁定并与主账户物理隔离。即使备份管理员也无法在到期日期之前删除这些备份副本。

LAG保险库使用Amazon Backup密钥进行加密,并且可以通过Amazon Resource Access Manager在不同账户之间共享。访问这些保险库需要双重身份验证,进一步增强了数据安全性。此外,客户可以从这些保险库中将数据恢复到一个干净的账户,使他们能够执行额外的数据审查或分析,而不会危及主账户。

在2024年的re:Invent大会上,亚马逊云科技宣布了Amazon EFS跨账户复制,这是一项新功能,允许客户在不同亚马逊云科技账户和不同区域之间复制数据。虽然Amazon EFS以前支持跨区域复制,但这一新功能通过在账户之间隔离数据访问,为数据安全和保护增加了一层额外的保护。

跨账户复制具有多重目的。首先,它通过在辅助账户上更改权限集来保护客户免受恶意或意外用户、丢失加密密钥或账户受损的威胁,从而将数据与这些威胁物理隔离。其次,它使客户能够将复制的数据作为业务连续性策略的一部分,在主账户发生事件时提供故障转移选项。

此外,客户可以通过应用更积极的智能分层策略或利用FSx Intelligent-Tiering存储类的自动分层功能来优化辅助账户。这允许客户将复制的数据存储在最低成本的归档层,为在主账户发生灾难或事件时恢复业务运营提供了经济高效的方式。

在整个演讲过程中,Bungli和Smith强调了亚马逊云科技在这三个核心领域持续投资的承诺:管理数据扩散、提高性能可扩展性和增强弹性。他们承认,在2024年re:Invent大会上分享的创新和公告都是受到亚马逊云科技客户反馈和他们在管理文件工作负载和数据方面面临的挑战的启发。

随着数据世界的指数级增长,亚马逊云科技将继续致力于提供前沿解决方案,使客户能够在云上更好地利用数据。平均每两周推出一项新功能的快速创新步伐,彰显了亚马逊云科技保持领先并满足客户不断发展需求的坚定承诺。

Bungli和Smith对那些启发亚马逊云科技工程师和产品团队不断推进边界、探索更多可能性的客户表示感谢。他们鼓励与会者通过调查提供反馈,强调客户反馈在塑造亚马逊云科技文件存储服务的未来中发挥着关键作用。

总之,2024年的re:Invent大会展示了亚马逊云科技在文件存储领域不懈追求创新的决心。从智能数据分层和性能可扩展性增强到弹性和数据保护功能,亚马逊云科技不断推高标准,使客户能够更有效地管理数据、无缝扩展工作负载,并保护关键信息免受潜在威胁。随着数据存储世界的发展,亚马逊云科技将继续走在前列,以客户反馈为动力,致力于提供能够让客户在云上释放数据全部潜力的解决方案。

下面是一些演讲现场的精彩瞬间:

演讲者在Reinvent周期间介绍了Amazon EFS和Amazon FSx的令人兴奋的公告。

Amazon FSx for Lustre提供了快速、可扩展且经济高效的存储,适用于高性能计算、机器学习和生成式AI模型训练等大规模并行计算密集型工作负载。

Amazon致力于持续投资,管理数据扩散、性能可扩展性和文件工作负载的弹性,以满足客户不断发展的需求。

亚马逊云科技推出了面向计算化学、ML研究和视觉模拟等元数据密集型工作负载的解决方案,能够高效处理数百万甚至数十亿个小文件。

Amazon FSx Gen 2文件系统提供动态扩展、更高吞吐量和改进的性能,适用于高要求的工作负载。

亚马逊云科技宣布对Amazon FSx进行了重大增强,包括支持NVMe over TCP以实现低延迟块存储、FlexClone和快照功能,以及恢复时间加快17倍。

首席执行官对客户表示感谢,并承诺在下一年的活动上推出令人兴奋的新公告,这些公告将受到客户反馈和创新的启发。

总结

在一段引人入胜的叙述中,亚马逊存储专家Prashant Bungli和Christian Smith揭示了Amazon FSx和Amazon EFS的最新进展,展现了亚马逊云科技在文件存储解决方案创新方面的坚定承诺。他们富有洞察力的演讲阐明了持续投资的三个核心领域:管理数据扩散、提高性能可扩展性以及加强弹性。

Prashant介绍了具有里程碑意义的FSx Intelligent-Tiering存储类,这是一种完全弹性且经济高效的解决方案,无缝集成了NAS的熟悉性和智能分层功能。该产品使客户能够轻松管理云中最大的数据集,开启利用亚马逊云科技广泛服务的新机遇。

Christian深入探讨了性能可扩展性领域,揭示了在FSx for Lustre中将元数据IOPS供应与存储分配解耦的增强功能,使元数据IOPS最高可提高6倍。此外,他还推出了Elastic Fabric Adapter和NVIDIA GPU Direct等加速功能,使GPU实例的每实例吞吐量最高可提高12倍,使FSx for Lustre成为云中GPU实例的最快存储性能。

在解决弹性问题方面,Christian介绍了EFS备份的逻辑隔离保险库,提供了不可变和隔离的备份副本,以及新推出的Amazon EFS跨账户复制功能,为数据安全和跨账户、跨区域的数据保护提供了额外的保护层。

在总结时,Prashant和Christian重申了亚马逊云科技持续创新的承诺,这种承诺源于客户反馈,并受到对突破性解决方案的不懈追求的启发。未来将有更多令人兴奋的进展,在管理数据扩散、性能可扩展性和弹性方面,确保亚马逊云科技继续在文件存储创新领域保持领先地位。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值