云和AI“一哥”再携手，亚马逊云科技与英伟达共攀云上AI算力新高峰

最新推荐文章于 2024-04-26 16:33:01 发布

中国云报

最新推荐文章于 2024-04-26 16:33:01 发布

阅读量101

点赞数

文章标签：人工智能科技

原文链接：https://mp.weixin.qq.com/s?__biz=MjM5MjUyNzIzOA==&mid=2653165277&idx=1&sn=0d9ab365dbf42d19a3bb4c49ac7a534a&chksm=bc00fedeca75dc086b02580d80cd2c77a2f19c43594058ce8429ec912552a13d8f21573cb0d5&scene=126&sessionid=0

版权

在武侠的世界里，高手间的过招从来都是激情满满，精彩绝伦。那么云计算与AI领域的两大顶尖高手之间的切磋，又会碰撞出怎样的火花呢？

这边，英伟达刚刚在GTC2024大会上宣布推出最新的NVIDIA Blackwell GPU，再攀AI性能高峰；那边，亚马逊云科技立刻接招，表示将提供NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPU，帮助客户打造新一代生成式AI能力。

高手之间惺惺相惜成就杰出

此次，英伟达CEO黄仁勋在发布更高性能GPU芯片的同时就做出承诺，将与包括亚马逊云科技在内的众多云服务商进行合作，持续强化AI生态，并且还要在制药、通用机器人等领域开疆拓土。而这与亚马逊云科技一贯坚持的普惠AI的战略不谋而合，必将扩展、加深双方的合作。

回顾历史，亚马逊云科技与英伟达的紧密合作可以追溯到13年前，当时双方共同推出了世界上首个亚马逊云科技上的GPU云实例。此外，双方还共同开发了AI平台NVIDIA DGX Cloud，这是一个在亚马逊云科技上运行的平台，为企业开发者提供了构建和部署先进生成式AI模型所需的专用基础设施和软件。

在亚马逊云科技2023 re:Invent全球大会上首次亮相的“Ceiba项目”，是当时英伟达与亚马逊云科技合作构建的世界上最快的AI超级计算之一，当时的计算性能为65exaflops。就连黄仁勋也不禁发出赞叹，“这是亚马逊雨林最壮丽的树”。4个月后的今天，Ceiba项目又有了新进展，它将采用GB200芯片进行设计。新的Ceiba项目拥有20,736颗B200 GPU的超级计算机，采用新型NVIDIA GB200 NVL72系统构建，利用第五代NVLink技术连接10,368颗NVIDIA Grace CPU。该系统还通过亚马逊云科技的第四代EFA网络进行扩展，为每个Superchip提供高达800 Gbps的低延迟、高带宽网络吞吐量，能够处理高达414 exaflops的AI计算量，与之前计划在Hopper架构上构建的Ceiba相比，性能翻了6倍。

今天，双方已经携手为客户提供了最广泛的英伟达GPU解决方案。英伟达下一代Grace Blackwell处理器的发布是生成式AI和GPU计算领域的标志性事件。当它与亚马逊云科技强大的EFA网络、Amazon EC2 UltraClusters的超大规模集群功能，以及亚马逊云科技独有的Amazon Nitro高级虚拟化系统及其安全功能相结合，就能使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。

双方长期的战略合作，不仅推动了技术创新，也为客户提供了更加优质和高效的服务。随着技术的不断进步和应用场景的不断拓展，相信未来双方还将在更多领域展开深度合作，共同推动用户的数智化转型。

高手之间过招，千变万化

武林高手之间过招，精彩场面让人目不暇接。俗话说，外行看热闹，内行看门道。此次亚马逊云科技与英伟达在生成式AI方面的合作，究竟有哪些热闹？更多的门道又在哪里呢？

OpenAI发表的论文有这样一个结论，模型的表现与模型的规模之间服从Power Law，即随着模型规模指数级上升，模型的性能呈现线性增长。不得不承认，更高的性能是大模型追逐的一个焦点，而这也在某种程度上是能力的一种具体体现。

在大模型研发领域，万亿级参数规模算是一道门槛。而全面支撑超万亿参数前沿大型语言模型的训练，正是亚马逊云科技最值得称道的一点。

亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台，它配备72颗Blackwell GPU和36颗Grace CPU，通过第五代NVIDIA NVLink互连。当与亚马逊云科技强大的EFA网络、Amazon Nitro高级虚拟化系统和Amazon EC2 UltraClusters超大规模集群等技术结合时，客户能够轻松扩展至数千个GB200 Superchips。英伟达Blackwell在亚马逊云科技上的应用，使得该平台在应对资源密集型和数万亿参数语言模型等推理工作负载加速方面实现了巨大飞跃。

基于此前搭载英伟达H100的Amazon EC2 P5实例的成功经验，亚马逊云科技计划提供配备B100 GPUs新的Amazon EC2实例，并支持在Amazon EC2 UltraClusters中部署以加速超大规模生成式AI的训练和推理。GB200也将在NVIDIA DGX Cloud上可用。在亚马逊云科技上推出的基于Blackwell的DGX Cloud实例将加速前沿生成式AI和超过1万亿参数的大语言模型的开发。

都说天下武功唯快不破，但是如果说亚马逊云科技只有一个“快”字，却也有失偏颇。因为亚马逊云科技提供的是整个云底座，在让AI更快的基础上，还要让AI能够更易部署、应用，并且更充分地发挥其价值。这才是亚马逊云科技真正想要达到的目标。

所以，亚马逊云科技在推动生成式AI落地方面，会做得更多也更好。举例来说，亚马逊云科技能够为生成式AI开发提供极致的安全保障。首先，亚马逊云科技坚持客户拥有并能够始终控制其数据，并确保数据不会与第三方模型提供者共享。其次，Amazon Nitro系统与英伟达GB200结合，能够阻止未授权个体访问模型权重。GB200支持对GPU间的NVLink连接物理加密以及CPU和GPU间的数据传输加密，同时还能够利用Amazon EFA对分布式训练和推理过程的数据进行加密。受益于Amazon Nitro系统，GB200系统能够将CPU和GPU的输入/输出功能卸载至专门的硬件中，以提供更加一致的性能，其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。这一独有的功能已由领先的网络安全公司NCC Group进行了独立验证。

作为生态中彼此支撑的伙伴，亚马逊云科技与英伟达携手在诸多行业和领域进行了创新性实践，让生成式AI为行业客户带来实实在在的价值。比如，医疗健康和生命科学就是其中一个关键领域。亚马逊云科技与英伟达在利用计算机辅助的药物发现领域进行拓展，推出了新的NVIDIA BioNeMo基础模型，用于生成化学、蛋白质结构预测，以及理解药物分子与目标的相互作用。据悉，这些新模型将很快在Amazon HealthOmics（专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务）上提供。

AI生成

加速生成式AI的普惠

麦肯锡在其报告中指出，全球生成式AI市场的规模正在高速增长。2022年，中国生成式AI市场规模约660亿元，2020-2025年复合增速可达84%，有望占全球比重的14%。但是值得注意的是，中国在基础设施和底层技术方面存在一定制约，这需要及时弥补和追赶。

不可否认，对于基础设施服务商来说，这意味新的契机。作为云服务商，亚马逊云科技针对生成式AI的策略从一开始就十分明确——以创新的技术、服务和生态，推动生成式AI技术的普惠化。

随着生成式AI技术的快速演进，以及生态建设持续完善，亚马逊云科技也在不断丰富自身的能力，从芯片到通用训练大模型平台，从面向开发者的AI编程助手到完整的云基础设施，亚马逊云科技的目标只有一个，就是全面降低各行各业客户使用生成式AI的技术门槛、成本门槛，让更多的企业和个人能够更容易、更有性价比地使用生成式AI。一句话，推动生成式AI的普惠化是亚马逊云科技不变的初衷。

IDC的调研显示，除互联网行业外，金融、批发零售与酒店、制造业等传统行业采用生成式AI最为超前。从生成式AI厂商的角度来看，则极度渴望形成可行的商业模式。由此可以预见，2024年将成为生成式AI加速落地的关键一年。对于在云与AI领域各自拥有强大话语权的亚马逊云科技和英伟达来说，它们接下来如何动作也会是业内持续关注的焦点。

往/期/回/顾

从科技赋能到价值引领，东莞证券可进化的信创云建设启示录

一手AI，一手云，亚马逊云科技继续重塑之旅

为生成式AI铺路筑基亚马逊云科技用了哪些招儿？

亚马逊云科技把Serverless的应用门槛降下来了

中国云报

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
云和AI“一哥”再携手，亚马逊云科技与英伟达共攀云上AI算力新高峰

在武侠的世界里，高手间的过招从来都是激情满满，精彩绝伦。那么云计算与AI领域的两大顶尖高手之间的切磋，又会碰撞出怎样的火花呢？这边，英伟达刚刚在GTC2024大会上宣布推出最新的NVIDIA Blackwell GPU，再攀AI性能高峰；那边，亚马逊云科技立刻接招，表示将提供NVIDIA GB200 Grace Blackwell Superchip和B100 Tensor Core GPU，帮助...
复制链接

扫一扫