1.6万块卡,700W TDP, 80GB显存;每台机器2块CPU+8块GPU,GPU之间NVLink互联;
通用分布式存储:240PB, 共7500个存储节点(30TB/节点), 全部是SSD;稳定吞吐量2TB/s,峰值吞吐量7TB/s (平均每个节点是1GB/s);Checkpointing写入是重点做的;
405B使用RoCE(RDMA over Converged Ethernet); 小模型使用Infiniband; 二者的跨机器都是50GB/s的带宽;
3层交换机(上面2层,每2个叶子之间有多个交换机);网络拓扑感知:Model并行策略,job scheduler,可根据当前job所在节点的网络拓扑,进行调度和策略调整;
collective通信库,把每个通信查分成16个流,便于通信load balance调度;(同一次collective通信操作,可被调度至多个路径上去,经过不同的中间交换机)