
应对AI挑战,以太网平台的创新之路
这就需要用到性能隔离技术。AI工厂主要是面向超大规模的AI训练,通常需要非常高的算力,通过几千颗、几万颗,甚至几十万颗GPU,组成庞大的AI工厂,以实现超大规模的AI模型预训练。由于AI训练是一种基于大或者超大Message的分布式计算,因此对计算过程中的各个计算进程的要求就很高,也就是各个分布式节点上的GPU计算的一致性要求很高,各个相关GPU之间的工作耦合性也很强,为了确保每个分布式应用的各个计算进程能协调工作,互相之间的影响降到最低,这就要求在AI业务场景中的各种通信的高效性、一致性和可预测性。
















