Nvidia 如何成为 AI 训练的超级强国

网络研究观

于 2024-05-27 05:00:00 发布

阅读量3.1k

点赞数 20

分类专栏：网络研究观文章标签：人工智能科技芯片竞争技术能力

本文链接：https://blog.csdn.net/qq_29607687/article/details/139222794

版权

网络研究观专栏收录该内容

1120 篇文章 32 订阅

订阅专栏

周三，英伟达公布了第一季度的财务业绩，再次超出了分析师的预期。在截至 4 月 28 日的季度中，该公司的利润同比飙升 262%，股价一度创下 1000 美元以上的新高。

目前，英伟达的市值超过 2.3 万亿美元，是全球第三大最有价值的公司，甚至超过了 Alphabet 和亚马逊等大型科技公司。

短短几年间，该公司实现了如此令人印象深刻的财务飞跃，主要因素是 Nvidia 的数据中心芯片，该芯片帮助该公司在第一季度的收入增长了四倍以上。

这一激增也说明了科技界的最新趋势：科技公司正在大力投资训练人工智能。

尽管 Nvidia 的主要竞争对手英特尔和 AMD，以及谷歌和 Meta 都推出了替代芯片，但它们都无法提供相同的性能。Nvidia 在数据中心芯片市场几乎处于垄断地位。

然而，随着竞争加剧和芯片短缺，保持同样的市场主导地位将会很困难，甚至不可能。

一切如何开始

Nvidia 的想法诞生于加州丹尼餐厅，来自台湾的美国移民黄仁勋 (Jensen Huang) 15 岁时在那里工作。

在创立 Nvidia 之前，黄仁勋做过各种卑微的工作，包括洗碗、清洁厕所等。

在一次公司活动中接受 Stripe 联合创始人采访时，他半开玩笑地说道：“我绝对是世界上最好的厕所清洁工。”

黄仁勋已经执掌英伟达超过 31 年，是科技界任职时间最长的首席执行官，他并不避讳自己的工作经验，并将其归功于自己强烈的职业道德。

1993 年，黄仁勋在 Denny's 餐厅与 Chris Malachowsky 和 Curtis Priem 会面，讨论如何开发一款能够在个人电脑上实现逼真的 3D 图形的芯片。从此，三位联合创始人开始了他们的创业之旅。

该公司的第一款芯片 NV1 于 1995 年发布。这是一款多媒体加速器，结合了 2D 和 3D 图形功能以及音频支持。然而，这款芯片试图实现的功能太多，未能赢得很多付费客户。当时，该公司几乎破产，不得不解雇近一半的员工。

黄仁勋在接受 Acquired 播客采访时表示：“创立 Nvidia 比我想象的要难一百万倍，比我们任何人想象的都要难。”他坦言，如果知道未来会发生什么，他不会再创办公司。

他说：“如果我们在那个时候意识到痛苦和煎熬，意识到自己会感到多么脆弱，意识到自己将要面对的挑战、尴尬和羞愧，以及所有出错的事情，我想就不会有人再去创办公司了。”

在 NV1 失败并濒临破产之后，该公司于 1997 年推出了 RIVA 系列 GPUS，即 128，这是该公司第一款成功的重大产品。Riva 128 的速度是其他任何图形处理器的四倍。

1999 年，该公司推出了 GeForce 256，这是第一款著名的显卡，同时也推出了业界一直使用至今的“图形处理单元”一词。

转向数据中心

尽管 Nvidia 的 GeForce 仍然广泛应用于最新的游戏 PC，但游戏 GPU 仅占公司总收入的 1/10 左右，其中最大份额来自数据中心。

Nvidia 在为游戏玩家打造 GPU 方面的专业知识无疑有助于其成为 AI 训练的强大力量。

与每次只能执行数十亿次计算的中央处理器不同，GPU 可以同时执行许多较小的任务。这个过程称为并行处理。

这是 GPU 适合编写 AI 软件的关键因素之一。

不过，这种“幸运的巧合”只是成功的一小部分，英伟达之所以能称霸AI训练市场，并取得如此大的优势，真正的原因是该公司早在17年前就开始为此做准备。

当没有人谈论人工智能时，Nvidia 就开始改进其芯片，使其更适合人工智能训练。2014 年，它推出了 Tesla K80，这是第一款用于数据中心人工智能训练的 GPU。

制造硬件只是成功的一部分。2006 年，该公司推出了 CUDA，这是一个利用 GPU 加速器功能的并行计算平台和编程模型。CUDA 允许开发人员利用 Nvidia GPU 的并行处理功能来加速图形以外的应用程序，例如科学模拟和 AI。

黄仁勋在 Stripe 活动台上接受采访时表示，如果没有该软件，Nvidia 不会取得如此成功。

这可能是现代计算领域最重要的发明之一，我们发明了加速计算的概念，这个概念非常简单，但意义却十分深刻。程序的一小部分代码占据了 99% 的运行时间，对于非常重要的应用程序来说，这一点确实如此。这一小段代码可以得到加速。

近乎垄断的市场

凭借多年制造 AI 训练硬件的经验，Nvidia 获得了专业知识，因此当 AI 热潮开始时，它正好拥有企业所需要的东西。

据德国 IoT Analytics 称，Nvidia 目前在数据中心 GPU市场占有 92% 的份额。

Nvidia芯片的巨大需求也造成了芯片短缺。

去年，Futurum Group 分析师丹尼尔·纽曼 (Daniel Newman)向《纽约时报》表示，企业要等待 18 个月才能获得 Nvidia 最新的 Hopper 架构芯片（称为 H100），而不是从竞争对手那里购买。

尽管芯片短缺问题已经缓解，但 Nvidia 的芯片需求仍然旺盛。所有主要参与者，包括 Open AI、谷歌、Meta 和亚马逊，都在使用 Nvidia 的产品训练他们的 AI。

今年，该公司推出了基于 Blackwell 架构的芯片。在发布第一季度财报后，黄仁勋表示，公司已准备好迎接下一波增长。

Blackwell 架构芯片的功能将是最新款 Hopper 芯片的两倍，售价约为 30,000-40,000 美元。

尽管与 PC 中的 GPU 相比，数万美元的价格似乎有点高，但对于客户来说，还是值得的。

他向《纽约时报》解释道： “如果芯片能够减少在五十亿数据中心上训练大型语言模型的时间，那么节省的费用将超过所有芯片的成本。”

供暖竞赛

虽然 Nvidia 已准备好进入下一阶段的增长，但 AI 训练市场的竞争正在升温。在如此快速发展的领域，没有人愿意依赖一家供应商并等待数月才能获得用于 AI 训练的硬件。

今年 4 月，谷歌和 Meta 还宣布推出用于训练 AI 的全新自研芯片。虽然它们落后于 Nvidia，但它们的芯片有一个优势——它们的硬件可以专门针对其 AI 模型进行量身定制。随着时间的推移，这些富有的科技巨头肯定会有所进步。

包括 Meta、谷歌和微软在内的一些大型科技公司正在为 Open AI 发布的名为 Triton 的软件的开发做出贡献。Triton 旨在让代码在各种 AI 芯片上运行软件，它将成为 CUDA 的竞争对手。

英特尔和 AMD 是 Nvidia 的主要竞争对手，它们正在努力追赶。上个月，英特尔发布了最新的 Gaudi 芯片，该公司表示，与 Nvidia H100 相比，这款芯片的推理能力平均提高了 50%，能效平均提高了 40%，而成本却只是后者的一小部分。

初创公司也推出了一些前景看好的芯片。Cerebras Systems 最近推出了 CS-3，该公司称其速度和性能是 Nvidia H100 的两倍，但成本相同。

未来，来自中国制造商的竞争也将加剧。华为正在推出用于人工智能训练的 Ascend AI 芯片，目前这些芯片的性能不如西方公司。但随着数十亿美元的半导体行业投资，情况可能会好转。

目前，Nvidia 相对于竞争对手拥有一个关键优势：多年的专业知识和技术。但这是否足以保持领先地位还有待观察。

网络研究观

关注

20
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录