【行业02】-数据中心生态专题

数据中心的思维模型

当今的数据中心可分为 3 类,投资者可从中挑选。在基础层面,半导体支持数据中心的大多数技术。在中间,我们有数据中心本身,可分为计算、网络和存储;这些都包含在服务器中。其底层是运行数据中心所需的技术,例如电源和冷却技术,以及数据中心的第三方运营商。最后,我们有云层,它提供了开发技术的抽象层。

数据中心可视化

我认为了解数据中心的正确起点是将其规模可视化。下面是一张很好的数据中心结构图:

数据中心的视觉呈现

这些小型数据中心也非常庞大,一些最大的超大规模数据中心的面积超过一百万平方英尺,约等于 25 个足球场。建设数据中心所需的基础设施包括土地、建筑、变压器、电源管理和冷却技术。

Jensen Huang 此前曾估计,数据中心约 50% 的成本用于基础设施,另外 50% 用于计算、网络和存储。 

所有这些设备都用于为承载计算和存储能力的服务器供电。以下是 Nvidia DGX A100 服务器的示例:

Nvidia DGX A100 服务器

这些服务器与其他服务器、网络设备和存储一起存放在机架中。数据中心中有数百到数千个这样的机架:

数据中心

开发一个由几千栋建筑物中的计算机组成的技术世界,这是对人类智慧的一个相当令人难以置信的证明(但我离题了)。

让我们开始分析数据中心行业的市场。

1.计算

Nvidia、英特尔和 AMD 之间的估计收入市场份额。注意:这并非确切的“市场份额”,而是这三家公司数据中心收入随时间变化的直观表示。

计算能力是数据中心的核心。

计算基础知识

计算是指在服务器上运行应用程序所需的处理能力和内存。根据工作负载的类型,服务器将使用不同类型的芯片,通常是 CPU 或 GPU。CPU 是计算机的中央处理器;它们擅长处理复杂的操作并充当与软件的主要接口。GPU 擅长并行处理,可以一次完成许多简单的操作。这就是为什么它们在图形方面的最初用途如此出色,以及为什么它们非常适合由许多小计算组成的 AI 工作负载。

其他类型的芯片,如专用集成电路和现场可编程门阵列也被使用,但使用频率要低得多。ASIC 是为特定工作负载定制的芯片,例如谷歌的 AI 加速器 TPU。从逻辑上讲,我们将继续看到 ASIC 在云数据中心更频繁地使用,因为微小的效率提升可以为超大规模企业带来显着的成本节省。FPGA 可以重新配置以实施不同的操作;它们现在在数据中心中并不广泛使用,但未来前景光明。 

CPU市场

数据中心 CPU 市场历来由英特尔主导,AMD 则位居第二。现在,AMD 带来了更多竞争,此外还有来自 Ampere、亚马逊、Nvidia 等公司的基于 Arm 的 CPU。 

CPU 市场正在呈现两大趋势。

1. AMD 抢占市场份额

首先,AMD 一直在从英特尔手中夺取 x86 处理器的份额。这在很大程度上要归功于 Lisa Su 的领导。Lisa 于 2014 年接任,我们可以看到他们在过去十年中取得了令人难以置信的成绩:

AMD 随时间变化的性能

他们的 EPYC 系列数据中心 CPU 继续取得成功,其最新一代是第四代 EPYC Genoa。

与此同时,英特尔正在尝试重塑其业务。他们渴望从台积电手中夺回世界上最先进工艺节点的制造权。英特尔正在大力打造英特尔代工服务。这一努力的未来尚不明朗。英特尔确实面临着一条极具挑战性的道路,即捍卫 CPU 市场份额、打造英特尔代工服务并试图夺取 GPU 市场份额。半导体顾问杰伊·戈德伯格 (Jay Goldberg) 表示, 

“AMD 在所有重要指标上都击败了英特尔,除非英特尔能够解决其制造问题并找到新的制造方法,否则他们将继续这样做。”

现在,我并不是想评论英特尔和 AMD 哪个更好。然而,这种比较为我们提供了关于预期的有趣教训。当 Lisa Su 接任首席执行官时,AMD 的预期不可能更低。矛盾的是,这大大改善了投资的风险状况。

2. 基于 Arm 的服务器占据市场份额

另一个趋势是基于 Arm 的处理器。多年来,Arm 因其效率而成为智能手机的首选架构。最近,这一趋势也延伸到了数据中心。 

亚马逊引领了这一潮流。它于 2018 年首次发布了 Graviton 处理器。从那时起,它已增长到数据中心 CPU 出货量的约3-4% 。Ampere Computing 是较新的芯片公司之一,也获得了可观的市场份额。此外,Nvidia 最近发布了其首款数据中心 CPU,即Grace 系列芯片。微软等其他公司也在制造基于 Arm 的 CPU。

这一趋势对英特尔和 AMD 都不利,随着定制硅片的普及,我们应继续关注这一趋势。

GPU市场

GPU 市场目前由 Nvidia 主导。他们正在积极投资以保持这种地位。 

来源:Nvidia IR

目前,数据中心 GPU 的主要竞争对手是 AMD 的 MI300。AMD 现在预计其数据中心 GPU 将在 2024 年创造 35 亿美元的收入。英特尔也提供数据中心 GPU,分析师估计明年将贡献 8.5 亿美元的收入。 

Nvidia 上季度营收为 181.2 亿美元,数据中心营收为 145.1 亿美元。除去网络业务,数据中心营收为 119 亿美元,其中大部分来自 GPU。富国银行估计,Nvidia 明年的 GPU 营收将达到 460 亿美元。

ASIC 市场——特别是 AI 加速器

GPU 的另一个竞争对手是 AI 加速器,从长远来看,它可能会从 Nvidia 手中夺走工作负载。最有可能的竞争来自大型科​​技公司,因为以下四家超大规模公司都有自己的 AI 加速器:

  1. 谷歌:谷歌的 AI 加速器被称为张量处理单元 (TPU)。TPU 自 2016 年开始生产,由博通提供支持,并由台积电制造。

  2. 亚马逊:Trainium 于 2022 年 10 月全面上市,Inferentia 于 2021 年全面上市。台积电也生产亚马逊的芯片。

  3. Meta:Meta 训练和推理加速器(MTIA)于 2020 年基于台积电的 7nm 工艺设计。

  4. 微软:Microsoft Maia 于 2023 年发布,预计 2024 年上市,采用台积电 5nm 工艺制造。 

最后,初创公司也可能带来挑战,尽管由于领先的晶圆厂产能,短期内这种情况似乎不太可能发生。AIMultiple一些最大的 AI 芯片初创公司筹集了资金,这很可能在未来几年成为热门的 VC 目标市场:

人工智能芯片初创企业的风险投资

2.数据中心网络

网络是我将介绍的第二项主要技术。网络使数据能够在服务器、存储和应用程序之间流动。本节将介绍网络、以太网与 InfiniBand 的重要概念/技术以及市场的主要参与者。

网络基础知识

最基本的三种网络技术是交换机、路由器和连接它们的电缆。还有一些用于处理数据的半导体,稍后我会介绍。 

  1. 交换机连接服务器、存储和其他网络设备;它们提供这些设备之间的数据流。 

  2. 路由器连接不同的网络和子网络。当数据流入和流出数据中心时,路由器会处理数据流,使其到达正确的位置。 

    1. 交换机促进同一网络内的通信。路由器提供与其他网络的连接。 

    2. 交换机和路由器都可以是以太网或InfiniBand。以太网的应用更为广泛,而InfiniBand在高性能计算中更受青睐。 

  3. 光纤和电缆:这些是将路由器、交换机和数据中心连接到世界其他地方的物理电缆。

这些技术从根本上构成了数据中心网络的绝大部分。还有其他技术,例如防火墙,但我想重点介绍高性能计算的推动因素。然后,所有不同的网络都通过网络拓扑(例如LAN、MAN 和 WAN)进行组织,但我也不会在这里深入讨论这些。 

数据中心网络的流行模型是主干-叶子模型:

脊叶模型图

每个机架顶部都有交换机(叶交换机)。然后,这些交换机分别连接到连接网络的几个更大的交换机。一个重要的概念是每个叶交换机连接到每个主干交换机。因此,如果一台服务器出现故障,流量可以路由到其他服务器;从而不会丢失服务。 

然后在服务器内部,也会发生联网。例如,在 Nvidia DGX A100 中,8 个 GPU 通过 NV 交换机聚集在一起以分配计算:

Nvidia A100 服务器示意图

最后,我们应该谈谈 InfiniBand 与以太网这两种主要的网络技术。从根本上讲,以太网速度较慢、价格较便宜,而且应用范围更广。Infiniband 速度更快、价格更昂贵,而且在高性能计算领域占据主导地位。

以太网是整个 21 世纪的主导网络技术。在 2010 年代初期,Infiniband 取代以太网成为高性能计算的主导技术。随着高性能计算需求的增长,Infiniband 的重要性也随之增长。以太网仍然是所有网络的标准,但 Infiniband 是高性能计算的标准。InfiniBand 通常用于连接多台服务器或服务器和存储。这可以减少运行处理大量数据的工作负载(如训练 LLM)时的延迟。

网络市场

网络设备市场有三家领先公司:思科、Arista 和 Nvidia(包括收购前的 Mellanox)。

数据中心网络正在呈现两大趋势:

1. 思科与 Arista 在以太网领域的比较

来源:Arista 投资者关系

过去十年,Arista 稳步从思科手中夺取数据中心市场份额。这主要得益于 Arista 对高性能计算云提供商的专注。在第三季度财报电话会议上,管理层指出,Arista 40% 的收入将来自“云和 AI”巨头: 

由于预计未来人工智能投资将有利,这个新的云计算和人工智能巨头行业预计将占我们总收入的 40% 以上。

正如我们在半导体行业看到的那样,随着技术变得越来越复杂,垂直化可能成为一种风险而不是资产。过去十年,我们看到思科在数据中心领域也面临类似的情况。虽然他们一直专注于管理价值 700 亿美元的网络/安全/软件业务,但 Arista 只专注于数据中心网络。在微软等大客户的资助下,他们一直是思科的强劲竞争对手。

通过他们的执行,他们的收入以 32.3% 的复合年增长率增长,市值以 26.9% 的复合年增长率增长。 

Arista 随时间变化的性能

2. Infiniband 与以太网

Infiniband 与以太网的争论十分激烈,因为以太网几十年来一直是网络标准。Infiniband 在高性能计算领域站稳了脚跟,目前在数据中心中也十分流行。 

总结一下当前的情况:Infiniband 和以太网都不是 AI 的完美选择。两者都将经过进一步的发展成为 AI 的标准。在近期内,Nvidia 与 Infiniband 的结合将成为标准。然而,展望未来几年,我们将看到更多的定制芯片、定制系统架构和以太网开发;预测市场的最终状态具有挑战性。 

Arista 的 CEO 去年就这一争论发表了一些见解(顺便说一句,对于那些对数据中心基础设施感兴趣的人而言,这次采访值得一读)。总结主要观点如下:

  1. 首先,Infiniband 和以太网都不适合 AI;两者都需要改进以满足 AI 的需求。 

  1. 她目前将 Infiniband 视为连接 GPU 的技术,将以太网视为外层——将 GPU 集群连接到数据中心的其余部分。 

  1. 她估计,Infiniband 目前占据了人工智能市场的 2/3,而未来几年这一比例将转向以太网。 

  1. 最终,她认为超级以太网联盟是推动以太网与 Infiniband 齐头并进的行业推动力量。

现在,我不会对这场辩论的未来发表任何意见,因为我可能会让自己出丑(但是,如果有读者精通这个领域,我很乐意听听你的想法)。 

一个合理的结论是,这种结果将极难预测,并且在研究这些公司中的任何一家时都应将其视为一种错误分析风险。 

Nvidia 网络

网络是 Nvidia 2023 年历史性的关键故事之一。Nvidia 于 2020 年收购了 Infiniband 网络领导者 Mellanox。这看起来可能会成为有史以来最伟大的收购,因为仅仅 3.5 年后,Nvidia 的网络业务规模就已经是 Mellanox 的数倍。

Nvidia 已能够将网络集成到其产品中,以销售集成平台,如前面所示的 DGX 超级计算机。这让他们几乎垄断了数据中心 GPU 和 InfiniBand 网络。

通过整合整个平台,Nvidia 提供了从软件到硅片的整个 AI 堆栈:

资料来源:Nvidia 投资者关系

为了提供一些额外的信息,下一个平台估计了 Nvidia 当前网络业务的规模:

当我们将 Nvidia 在电话会议上说的话输入到我们的电子表格魔法中时,我们估计计算和网络业务中的计算部分销售额为 119.4 亿美元,比去年同期增长了 4.24 倍,网络部分销售额为 25.8 亿美元,同比增长 2.55 倍。黄仁勋表示,InfiniBand 网络销售额在本季度增长了 5 倍,我们认为这一数字将达到 21.4 亿美元,占所有网络业务的 83.1%。网络业务中的以太网/其他部分销售额为 4.35 亿美元,下降了 25.2%。

他们最近还发布了专为 AI 以太网工作负载设计的 Spectrum-X 以太网平台(因此他们也清楚地看到了以太网和 AI 的未来)。他们的以太网业务仍然相对较小,但为他们提供了另一条扩展途径以主导数据中心。

网络硅片

最后,我想谈谈网络半导体。首先,再介绍一些术语:

  1. NIC:网络接口卡是与交换机通信并将数据传递给 CPU 进行处理的半导体。 

  2. SmartNIC:SmartNIC 更进一步,消除了 CPU 的部分处理工作量。然后,SmartNIC 可以直接与 GPU 通信。

  3. 数据处理单元 (DPU):DPU 又向前迈进了一步(您猜对了),将更多功能集成到芯片上。DPU 的目标是提高 AI 工作负载的处理效率,并消除 CPU 处理需求。 

博通和 Marvell 是网络领域最大的两家半导体供应商(Nvidia 除外)。博通的网络业务规模庞大,约占其收入的 25%:

来源:博通投资者关系

我们可以从他们最近的收益电话会议中了解其规模:

第四季度网络收入为 31 亿美元,同比增长 23%,占我们半导体收入的 42%。23 财年,网络收入同比增长 21%,达到 108 亿美元。如果我们排除 AI 加速器,网络连接收入约为 80 亿美元,这纯粹是硅片收入。

博通过去 12 个月的营收达到 110 亿美元,是仅次于思科的全球第二大网络公司。

Marvell 还设计用于存储和网络的芯片,他们的目标是“构建数据基础设施的未来”。他们没有专门公布数据中心网络的收入;在过去 12 个月中,他们的数据中心和网络业务创造了约 32 亿美元的收入。 

下面,他们的网络芯片是蓝色的5个芯片:

来源:Marvell 投资者关系

Broadcom 和 Marvell 均在数据中心领域占有重要地位。 

3. 存储 

存储基础知识

存储是数据中心计算的第三大主要部分。在数据中心存储中,存在两个主要选项:闪存和磁盘。闪存以固态硬盘或 SSD 为代表,是高性能计算工作负载的首选,这些工作负载需要高带宽和低延迟的快速数据访问。另一方面,磁盘(硬盘驱动器 - HDD)提供更高的容量,但带宽较低且延迟较高。对于长期存储需求,磁盘仍然是首选技术。

数据中心内有几种存储架构:

  1. 直接连接存储 (DAS) - 存储直接连接到服务器,只有该服务器可以访问存储。

  2. 存储区域网络 (SAN)——允许多台服务器访问池存储的网络。

  3. 网络附加存储 (NAS) - 连接到网络的存储

  4. 软件定义存储 (SDS) - 汇集物理存储的虚拟化层,并提供额外的灵活性和可扩展存储。

存储架构

其他受益人

为了简洁起见,我不会详细介绍以下部分,但我想强调一下数据中心的其他关键组件:

1. 服务器

服务器将 CPU、GPU、网络、内存和冷却集成到一个单元。 

这是旧数据,但数据没有发生重大变化:

来源:IDC

原始设计制造商 (ODM) 负责产品的设计和制造,其他公司将购买并重新命名。然后,OEM 将购买该硬件,并专注于这些产品的销售、营销和支持。此图表中的 ODM 直销是指 ODM 直接向超大规模企业等公司销售产品的情况。

您可能已经听说过最近有关 SMCI 的炒作,该公司主要是一家 OEM,但也从事一些 ODM 工作。他们是 Nvidia 的重要 OEM,这导致他们在去年实现了爆炸式增长。

2. 电源管理/冷却

据估计,数据中心 50-60% 的成本来自计算、网络和存储。另外 40-50% 来自电力、冷却、安全、运营商、建筑、房地产等。

这 40-50% 中最大的开支用于电源管理,包括配电、发电机和不间断电源系统。

这里的领导者是施耐德电气、ABB、伊顿和西门子等大型工业公司。以下是来自Quartr 的一张很好的图表,将其可视化:

来源:Quartr

数据中心冷却包括冷水机组、计算机房空调 (CRAC)、计算机房空气处理器 (CRAH) 和 HVAC 单元。 

市场领导者包括 Vertiv、Stulz、施耐德电气和 Airedale International。

3. 运营商

运营商是为其他公司构建、管理和托管物理服务器的第三方公司。一种流行的模式是主机托管,即 Equinix 为公司提供放置服务器和网络设备的空间。 

这里有一个很好的视觉效果:

来源:Dgtl Infra

4. 建筑/房地产/电力/安全

价值链的其他几个环节使得数据中心成为可能。必须购买和开发土地。数据中心使用大量电力。此外,数据中心必须安全,因为它们包含世界上一些最重要的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值