CMP205 | 亚马逊云技术上的高性能计算:使用现收现付基础设施解决复杂问题

CMP205 | 亚马逊云技术上的高性能计算:使用现收现付基础设施解决复杂问题

关键字: [Amazon Web Services re:Invent 2023, Amazon ParallelCluster, Hpc Infrastructure On 亚马逊云科技, Hpc Workloads In The Cloud, Hpc Instances On 亚马逊云科技, Drug Discovery With Hpc, Numerical Weather Prediction]

本文字数: 2300, 阅读完需: 12 分钟

视频

导读

在本次分享中,您将了解亚马逊云技术上的高性能计算如何使极限规模计算成为可能,从而解决世界上一些最棘手的环境、社会、健康和科学问题。您也有机会了解可以帮助您通过模拟更快地设计产品、预测天气、更精确地检测地震等活动的基础设施。我们一起探索如何使用几乎无限的基础设施和几乎无限的规模运行大规模并行工作负载并分析更多数据。最后,您将了解如何在完成后关闭它,并在准备重新开始时启动它,帮助您优化高性能计算成本。

演讲精华

以下是小编为您整理的本次演讲的精华,共2000字,阅读时间大约是10分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

在会议开始时,演讲者试图了解观众们对在高性能计算(HPC)领域应用亚马逊云科技的熟悉程度。通过举手表决,我们发现有些人已经开始使用亚马逊云科技进行HPC工作负载,而其他人则仍在内部数据中心运行HPC工作负载。然而,许多人对HPC总体不太了解,并在之前的re:Invent上提及后表现出好奇,想要了解更多。

演讲者讲述了一个有趣的轶事:一位在量子计算领域做报告的同事在短暂的休息后试图回到演讲室时迷路了。这个故事强调了量子计算与传统HPC相比的不确定性和近乎随机的特性,以及其可靠性与精确性。

演讲者提出了一个问题:我们在这里的目的是什么?本次会议的目标是概述HPC,解释为什么它在许多领域都如此重要,并详细介绍亚马逊云科技在云端处理HPC的方法。演讲者提到,随着时间的推移,人们对亚马逊云科技能否真正处理HPC工作负载的看法已经发生了变化,从怀疑到逐渐建立信任,并展示了其高性能的能力。

演讲者强调,亚马逊云科技的弹性和按需付费模式使得能够根据工作流程的各个阶段创建优化的集群,而不是将工作负载适应固定的内置基础设施。这种灵活性导致了更好的资源利用率和更快的结果时间。演讲者挑战了传统上关注最大化核心利用率的观念,建议还应考虑诸如能效和业务价值产生的指标。

深入技术细节,演讲者列出了云端或内部HPC所需的核心组件:计算、网络、存储、任务调度器和协调器。亚马逊云科技为每个部分提供了专门设计的解决方案:

在计算方面,亚马逊云科技已通过专用实例(如HPC6a、HPC7g和HPC6i)扩大了其高性能计算产品范围。客户可根据特定指令集或性能价格需求选择合适的架构。例如,Eli Lilly公司使用V100和T4 GPU实例优化不同低温电镜工作负载的成本和性能。这得益于亚马逊云科技的Nitro系统,它能将功能从vCPU中卸载,从而实现接近裸金属的性能。微基准测试表明,关键高性能计算代码上的虚拟化开销低于1%。

在网络方面,弹性织物适配器(EFA)为高性能计算工作负载提供了高吞吐量和高延迟。延迟保持在10-12微秒范围内。EFA利用了亚马逊云科技高度网格化的网络架构及其可扩展的可靠数据报协议。虽然性能与Infiniband相当,但EFA更具灵活性。

在存储方面,FSx for Lustre通过利用Amazon S3提供了一个高性能的POSIX兼容文件系统。它可以动态分配临时高性能计算工作流的擦除存储。例如,Eli Lilly公司将其用作低温电镜数据分析的快速擦除空间。亚马逊FSx for Lustle文件缓存提供了一个统一的命名空间,用于访问来自内部文件存储、FSx for Lustre和S3的数据。

在调度方面,亚马逊云科技Batch可以原生地调度高性能计算作业。此外,亚马逊云科技Batch还可以通过Amazon EKS利用Kubernetes,为客户提供更灵活的环境需求。例如,Eli Lilly公司使用商业软件cryoSPARC在亚马逊云科技上分析低温电镜数据。

在协调方面,亚马逊云科技ParallelCluster简化了部署和管理高性能计算集群的过程。它可以根据工作负载需求自动调整集群的大小以节省成本。

演讲者紧接着邀请了Eli Lilly公司的HPC主任陈博士,从客户的角度分享她的见解。陈博士详细解释了她是怎样担任这一角色的,以及如何将HPC和机器学习应用于药物发现这个日益重要的应用领域。她概括了了解目标蛋白质的三维结构如何有助于设计结合患病版本目标的分子的过程。相较于传统的X射线结晶学,冷冻电子显微镜(Cryo-EM)已经彻底改变了这一过程,因为它能够更快、更高分辨率地成像蛋白质结构。自2014年冷冻电镜和存入公共数据库的蛋白质结构数量从29个激增至2021年底的6000多个。

陈博士讲述了亚马逊云科技与Eli Lilly合作设计适用于其冷冻电镜工作负载的云原生架构的情况。显微镜数据会立即上传到Amazon S3存储桶中。科学家可以登录并分析数据,通过将其液化为FSx for Lustre并利用V100或T4实例等GPU计算资源。这提供了快速迭代所需的速度、可扩展性和成本优化。尽管Eli Lilly仍然使用内部HPC处理一些工作负载,但亚马逊云科技已解锁了敏捷性并加速了其药物发现管道。

演讲者还强调了其他几个利用亚马逊云科技HPC的客户使用案例:

  • DTN通过利用亚马逊云科技的弹性仅在需要时使用资源来加速天气预测,以向其客户提供及时的天气预报。他们的工作负载可能每天只需要几千个核心40分钟。

  • Dallara Racing使用亚马逊云科技进行计算流体动力学,以优化为其Formula 1客户的赛车设计。亚马逊云科技有效地最大化了在比赛限制范围内使用计算的效率。

  • Commonwealth Fusion Systems依赖亚马逊云科技的GPU实例来研究作为未来潜在可持续能源来源的核聚变。

亚马逊云科技在云计算HPC领域的领导地位已通过HPCwire的读者选择奖的最佳云提供商奖项得到了证实。但最终,这些弹性资源使各个领域的科学家和工程师能够更快地进行创新。演讲者挑战听众思考他们在亚马逊云科技上使用HPC能发现什么。

总的来说,本次会议详细阐述了亚马逊云科技如何与顾客紧密合作,共同构建专为高性能计算(HPC)基础设施设计的系统,从而实现灵活性、可扩展性和成本效益。通过提供丰富且深入的功能,亚马逊云科技正使云计算领域的高性能计算变得更加普及,使得各类规模的机构都能够运用这些强大功能,进而推动创新的边界。

下面是一些演讲现场的精彩瞬间:

领导者要求观众举手,如果他们目前正在内部运行高性能计算(HPC)工作负载。

全新的HPC 6实例拥有高达384GB的内存和96个核心,对于天气模拟和计算流体动力学客户而言表现出色。

领导者强调了Amazon FSx for Lustre作为一种创新解决方案,可以实现动态存储分配以匹配计算需求。

此外,亚马逊文件缓存提供了一个统一的命名空间,使得可以同时访问内部和云数据,从而加速工作流程。

亚马逊云科技并行集群允许用户动态创建和管理HPC集群,以便高效地运行各种工作负载。

陈S.分享了他在领导Eli Lilly企业HPC团队方面的经验,这些经验使他能够深入了解公司的研发管线以及人工智能和机器学习在药物发现中的应用。

领导者向观众发出挑战,鼓励他们利用亚马逊云科技上的HPC资源去发掘新的可能性。

总结

在亚马逊云科技的年度re:Invent上,一位演讲者详细介绍了亚马逊云科技的高性能计算(HPC)功能及其客户如何通过云计算应对繁重的工作负载。近年来,亚马逊云科技在HPC领域的地位已从质疑转变为经过验证的性能和成本效益。为了满足不断变化的需求,亚马逊云科技投资开发了多项新功能,包括全新的HPC实例类型、弹性网络EFA、基于Lustre的FSx高性能存储以及ParallelCluster等编排工具。这些功能使得能够根据需求扩展或缩减定制化的HPC基础设施。

其中一个主要优势是缩短了获取结果的时间。客户可以为每个处理阶段创建定制的集群,从而更快地得到结果,而不是维持固定的紧凑解决方案。演讲者强调了亚马逊云科技的新HPC实例类型,如基于Graviton和英特尔的处理器,以满足各种工作负载需求。这些实例背后支持的是亚马逊云科技Nitro技术,它消除了虚拟化瓶颈。

在网络方面,亚马逊云科技采用多路径方法而非InfiniBand,以实现灵活性和可扩展性。存储选项如FSx for Lustre和File Cache提供了高性能文件系统和高性能混合能力。通过使用基于Kubernetes的Batch调度和亚马逊云科技ParallelCluster,简化了HPC集群管理过程。

实际客户案例包括Eli Lilly公司在药物发现过程中的冷冻电镜技术、DTN的天气预测以及Delara的计算流体动力学研究。峰会以亚马逊云科技荣获最佳云计算HPC读者选择奖作为高潮,这表明只有客户的成功才能带来亚马逊云科技的成功。最终目标是通过对HPC基础设施提供最高性能和经济高效的支持来推动创新。

演讲原文

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

李白的朋友高适

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值