PCIe 8.0的仓促上马和UEC, UALink的关系梳理（一）

最新推荐文章于 2025-10-06 00:07:41 发布

Saniffer_SH

最新推荐文章于 2025-10-06 00:07:41 发布

阅读量1k

点赞数 14

CC 4.0 BY-SA版权

文章标签：人工智能硬件工程 ai 计算机外设驱动开发

本文链接：https://blog.csdn.net/Saniffer/article/details/150773678

PCI SIG官方组织的PCIe 6.0规范发布都3年多了 - 2022年1月11日，PCI-SIG官方正式发布了PCIe 6.0规范。但是，目前市场上的PCIe 6.0产品化感觉仍旧处在早期阶段，感兴趣的朋友可以参考本文底部的白皮书（chapter 1.3) 2024/6, 2024/10, 2025/3月PCI SIG组织的三次PCIe 6.X Preliminary FYI Workshop了解一下当前市场上PCIe 6.0产品测试碰到的各种问题，包括CPU, GPU, 网卡, SSD，FPGA等。另一方面，PCIe 7.0 Spec在2025年初已到了version 0.9版本了，马上快要finalized 到version 1.0，但是现在PCI SIG针对PCIe 8.0规范又急不可耐地开始启动了。所以，如果你和我有下面的一样的疑问，请仔细阅读本文后面的分析。

PCI SIG当前状况下这么着急计划推出PCIe 8.0 spec，是因为担心在未来AI智算中心硬件架构中输给其它规范组织，如UEC, UAlink吗？
UEC和UALink未来是否会融合，还是各自独立发展？我们需要了解一下这两个组织的发生、发展历程，以及这两个规范组织中的哪些公司居于领导地位？代表利益有何不同？哪个组织的热度更高一些？哪个规范获得业内认可及采纳更多一些？UEC和UALink底层链路既可以用PCIe也可以用Ethernet，但是目前主导方向为使用ethernet，这种讲法吗？如果使用Ethernet，那么如何保证底层的流控、延迟满足类似于PCIe的性能？业内的PCIe和Ethernet switch老大Broadcom怎么看这个事情？它为什么会反复加入然后退出类似于CXL, UEC, UAlink这类组织？它是根据自己的产品优势地位有自己的盘算吗？
Nvidia目前和PCI SIG, UEC，UALink以及CXL的关系怎么样？为何业内说它的它的nvlink开源open source是假开源？它这是迫于UALink的压力的暂时之举吗？
AI智算中心硬件架构中的scale out和scale up的定义，PCIe，UEC，UALink，NVLINK，infiniband，CXL这些耳熟能详的技术在scale out和scale up当中的位置是怎么样的？

首先我们来看一下PCIe 8.0规范的一些基本的信息，我们这里应用SerialCables总结的英文信息。然后我们再来分析一下上述你关心的各个疑问。

PCIe 8.0 Specs Target Release

The PCI-SIG has officially announced development of PCIe 8.0, expected to finalize by 2028, doubling the raw data rate to 256 GT/s and delivering up to 1 TB/s bi‑directional bandwidth over x16 configurations

Key objectives include reviewing new connector tech, meeting latency and FEC reliability targets, maintaining backward compatibility, and improving power efficiency that is critical for AI/ML, quantum computing, edge, automotive, aerospace, and hyperscale data centers

Why Should It Matter to You?

Skyrocketing Bandwidth Demands: Next-gen workloads, like AI training, HPC, edge computing, and hyperscale data centers, rely on ultra‑high throughput. PCIe 8.0 delivers double the capacity of PCIe 7.0 and 8× the bandwidth of PCIe 5.0.

Consistent Backward Compatibility: Each PCIe generation remains compatible with prior versions, preserving investment in ecosystem tools like cards, switches, and interconnects.
Signal Integrity Challenges Accelerate: As GT/s speeds double with each generation, maintaining link quality across copper, connectors, or cable assemblies becomes exponentially harder, driving demand for advanced hardware like our Gen6 retimers and redrivers.
Advance Planning is Key: With PCIe 7.0 finalized in mid‑2025 and PCIe 8.0 on the horizon by 2028, planning your signal integrity strategy today ensures you're ready for future platform upgrades.

PCIe 6.0产品化仍在早期，PCIe 8.0规范却已提上日程：背后的博弈与AI智算中心架构之争

PCIe 6.0的市场落地现状

PCIe 6.0规范自 2022年1月11日 由PCI-SIG正式发布以来已过去三年多，但整体市场落地仍然处于初期阶段。通过观察 2024年6月、2024年10月和2025年3月 三次PCI-SIG组织的 PCIe 6.X Preliminary FYI Workshop，可以清晰看到目前几类关键产品的状态：

CPU：
- 服务器CPU方面，Intel下一代Sierra Forest / Granite Rapids预计在2025年底（可能推迟到2026年初）开始支持PCIe 6.0；AMD则会在Zen 6世代的EPYC平台逐步引入。整体仍在工程样片（ES）和早期测试阶段。
- 桌面CPU尚无任何厂商在零售市场推出PCIe 6.0支持，主流仍停留在PCIe 5.0。预估时间2030年。
GPU：目前尚无公开发售的GPU支持PCIe 6.0，NVIDIA与AMD的高端加速卡仍以PCIe 5.0 x16为主，PCIe 6.0链路主要出现在实验室验证和原型板中。
网卡：网络设备商（Marvell、Broadcom、Intel NIC部门）已经在内部展示过PCIe 6.0 NIC样机，但距离商用发布仍有1-2年。Mellanox CX-8支持PCIe 6.0 x16。
SSD：Micron、Samsung、Solidigm等厂商在2024年底到2025年初展示了PCIe 6.0 SSD的工程样片，但可靠性、功耗与协议一致性仍是关键挑战。
FPGA：Intel Agilex系列与AMD Versal系列已率先集成PCIe 6.0硬核IP，是目前产业化最早的赛道，主要应用于协议验证与早期生态开发。

换句话说，PCIe 6.0目前的角色是 实验验证与早期部署，距离 全面商用 尚需两年左右。

PCI-SIG急于推进PCIe 8.0的背后原因

PCIe 7.0将在 2025年中 进入正式版本（1.0），而PCIe 8.0已定于 2028年 完成，速率翻倍至 256 GT/s，x16带宽高达1 TB/s。如此紧锣密鼓的迭代并不仅仅是出于技术惯性，而是因为 PCI-SIG感受到了来自其它新兴互联规范组织的压力。

AI智算中心的核心需求是 scale-out扩展性 与 scale-up算力密度。若PCI-SIG节奏放缓，UEC（Ultra Ethernet Consortium） 与 UALink（Ultra Accelerator Link） 等组织可能会在AI互联协议的标准化上抢占先机。

UEC与UALink：竞争还是融合？

UEC（Ultra Ethernet Consortium）
- 成立背景：由Arista、Broadcom、Cisco、Meta、Microsoft、AMD等主导，目标是推动基于以太网的低延迟高带宽互联，用于AI训练集群。
- 代表利益：网络设备与云计算巨头，希望以太网继续作为数据中心事实标准。
UALink（Ultra Accelerator Link）
- 成立背景：2024年由AMD、Intel、Google、Microsoft等共同发起，旨在定义GPU/加速器之间的高速互联，直接挑战NVIDIA的NVLink。
- 代表利益：CPU厂商+云厂商联盟，试图打破NVIDIA在大规模AI集群中的互联垄断。

对比来看：

热度：UALink因直接对标NVIDIA NVLink，在AI社区讨论度更高；UEC更多被看作数据中心互联的演进。
行业采纳度：目前UEC基础广（以太网兼容性强），UALink战略性更强（直接嵌入AI算力核心）。
底层链路：两者设计上都可基于 PCIe PHY 或 以太网物理层，但主导方向确实是 以太网。

问题在于：以太网天生的 拥塞控制、流控机制、延迟 与PCIe点对点总线不同。为满足AI训练的确定性需求，UEC/UALink必须引入 定制化流控协议（RoCEv3、先进的拥塞避免算法、端到端QOS） 来逼近PCIe级的延迟。

Broadcom的态度：作为PCIe与以太网交换芯片的双寡头之一，Broadcom在CXL、UEC、UALink等组织之间反复进退，核心原因在于它希望最大化利用 自己在以太网交换芯片上的优势，避免被协议绑定限制未来产品自由度。

NVIDIA的复杂角色：PCIe, CXL, UEC, UALink与NVLink

NVIDIA目前是最大赢家，也是最大异类：

它在 PCI-SIG 中保持成员身份，但对PCIe 6.0/7.0并不积极推动。
它未加入UALink，因该联盟明显对抗NVLink。
它对UEC也保持观望态度。
对 CXL：早期支持有限，态度保守。

NVLink开源之争：NVIDIA宣布NVLink开源，但业内普遍认为这是“伪开源”——

文档开放有限，未提供完整RTL/IP，无法自由实现。
生态绑定NVIDIA GPU，缺乏真正的多厂商兼容性。
因此，业界认为其意图更多是“公关策略”，而非真正的开放互联标准。

Scale-Out vs. Scale-Up：架构竞争的核心

在AI智算中心，硬件架构的扩展模式分为：

Scale-Up（纵向扩展）：增强单机算力密度，例如在单台服务器内通过PCIe/CXL连接CPU、GPU、加速卡。
Scale-Out（横向扩展）：连接成千上万台服务器与GPU节点，例如通过以太网、InfiniBand、UEC、UALink实现。

对应关系：

PCIe 6.0/7.0/8.0 → 主要用于 Scale-Up（单节点内部互联）。
CXL → 在Scale-Up场景下提供内存语义互联。
NVLink / UALink → GPU间 Scale-Out 互联，低延迟大规模训练核心。
UEC / Ethernet / InfiniBand → Scale-Out网络骨干，承担集群级通信。

因此，PCIe在AI数据中心不会消失，但它的地位正逐渐被“切割”：

节点内：PCIe + CXL仍是黄金标准。
节点间：未来战场是UEC、UALink、NVLink、InfiniBand的博弈。

结论

PCIe 6.0在产品化上仍然处于早期，7.0即将落地，8.0已提上日程。PCI-SIG如此快节奏的推进，实质是担心在 AI智算中心scale-out互联标准 的竞争中，被UEC和UALink边缘化。

UEC与UALink未来可能融合，但短期内代表的产业利益并不一致。Broadcom与NVIDIA的态度也将成为关键变量。最终，AI智算中心互联的未来 或许不是单一协议一家独大，而是 PCIe + CXL负责scale-up，Ethernet/UEC/UALink/NVLink/InfiniBand负责scale-out 的混合格局。