AI网络时代,构建200G/400G RoCE混合组网

“30台AI服务器1个亿?这就是在抢钱啊!”

近日,中国移动江苏有限公司发布《中国移动智算中心(南京)2023年智算算力项目算力设备采购项目》招标公告,招标项目内容显示,需采购30台人工智能通用计算设备(训练型),预估金额10890万元(人民币/含税),单价限价363万元/台。

从2021年底ChatGPT上线迅速引发广泛关注后,AI行业持续火爆至今,随着行业巨头纷纷下场,AI基础设备的军备竞赛如火如荼。AI训练模型需要大量数据和计算资源,这对网络基础设施提出较高带宽和低时延的要求,很多人立马会想到InfiniBand,但昂贵的方案价格、无法与其他网络设备互通互访的特性以及较长的供货周期让国内AI厂商犯难,基于Ethernet的RoCE方案成了数据传输的首选:提供媲美InfiniBand的高宽带低时延性能,加上较低的成本,网络使用RoCE方案已经成为AI厂商的必然发展趋势

AI技术需要强大的计算资源来支撑,具有强并行计算能力的GPU能够大幅提升计算效率,缩短AI训练模型时间,配备合适的网卡能够充分发挥GPU的性能,但GPU芯片供应常年短缺,对AI厂商来说抢到GPU已属不易,更遑论挑选型号,采购GPU和网卡的流程往往同时进行,此时无法预判究竟应该配备200G还是400G的网卡。

网卡负责处理网络通信与数据传输,无法确定网卡参数时,可以通过200G/400G RoCE的混合组网来简化管理和部署,使数据中心拥有更好的可扩展性。在混合组网的落地过程中,时常有参数流量超越线路带宽、网络丢包的风险,产生训练速度降级,GPU资源闲置率过高等问题,军备竞赛当前,应该挑选哪家厂商承担基础设施建设的重任?

目前中国市场上的交换机有多种规格,1G/10G/25G/40G/100G都比较常见,市面上200G端口的交换机凤毛麟角,少数厂家能提供200G低密度宽口或是框式交换机,在网络扩展升级的灵活性、成本效益方面都存在劣势;400G端口的交换机也较少见,一般用于高性能数据中心或大型企业网络中,因此能够提供200G/400G RoCE混合组网的厂商十分有限。

400G超低时延交换机内部结构大揭秘!

星融元作为国内新一代开放云架构解决方案的提供商,7年来始终大力投入研发,拥有众多技术创新,是业界唯一能够提供200G/400G RoCE混合组网、无缝衔接、且网络无损的开放网络厂商

星融元采用基于RoCE的分布式概念替换了传统机框,相比较框式交换机,星融元盒式交换机拥有高性价比、低故障率、低时延等优点,星融200G交换机在2U盒式形态下提供64高密度端口,能够提供更大的接入能力,与400G交换机混合组网部署网络,充分满足客户需求。另外星融元“零丢包”数据传输特性保障了网络的稳定性和可靠性,让AI厂商模型运行不中断,为高性能计算集群提供了真正意义上的低时延、零丢包、高性能的网络

客户现场软硬件环境&性能测试指标

GPU Server-Leaf-Spine-Leaf-GPU Server
Bond RoCEv2带宽GB/sQP=0QP=128QP=300QP=1024TX_UTIL
Hash enhancement186.32300.32344.64355.2598.62%
No Hash enhancement186.84296.84338.26349.5297.13%

在多次客户实地RoCE能力测试中,星融元使用Asterfusion CX-N超低时延云交换机搭建AIGC网络,完成RoCEv2吞吐性能测试、网卡Bond性能测试和NCCL all_reduce_perf测试,AIGC计算节点完成RDMA配置和性能优化,获得客户的认可。

AI对市场竞争格局的影响愈发明显,200G/400G交换机的需求越来越多,提出高带宽、低时延、大规模部署的技术要求,同时也带来了诸多市场机会,“重金求设备”便可一窥趋势。

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

### 关于200G和400G RoCE混合组网的信息 #### 配置方法 对于200G和400G RoCE(远程直接内存访问)网络的混合组网配置,通常涉及硬件选择以及软件设置两方面。在网络设备的选择上,确保所选交换机支持RoCE v2协议,并具备足够的端口密度来满足不同速率接口的需求[^1]。此外,在服务器侧需安装适配器卡或NICs(Network Interface Cards),这些组件同样要兼容指定版本的RoCE标准。 为了实现最佳性能,建议采用最新的InfiniBand架构或者以太网技术作为底层传输介质。当构建此类环境时,应考虑使用具有高级特性的驱动程序和支持RDMA over Converged Ethernet (RoCE) 的操作系统内核模块。这有助于减少延迟并提高吞吐量效率。 #### 兼容性问题 在规划阶段就要仔细评估现有基础设施能否无缝接纳新的高速连接方式。特别是要注意检查当前使用的电缆类型是否适用于更高等级的数据传输速度;例如,某些类型的光纤可能无法稳定承载超过一定限度的速度而影响整体表现。另外,还需确认所有参与节点的操作系统及其网络栈已更新至最新状态以便更好地处理高带宽流量带来的挑战。 #### 性能优化 针对200G/400G RoCE网络进行性能调优可以从多个角度入手: - **调整TCP/IP参数**:适当修改Linux系统的tcp_rmem/tcp_wmem等缓冲区大小可以有效提升大文件传输效能; - **启用Jumbo Frames**:增大MTU值能够降低包头开销比例从而增加实际可用带宽; - **利用多路径路由法**:通过ECMP(Equal-Cost Multi-Path Routing) 或者LACP(Link Aggregation Control Protocol) 实现链路冗余的同时也提高了数据流分配灵活性; - **实施QoS策略**:合理划分业务优先级可保障关键应用获得充足资源而不受其他低重要度任务干扰。 ```bash # 调整 TCP 缓冲区大小 sysctl -w net.ipv4.tcp_rmem="4096 87380 67108864" sysctl -w net.ipv4.tcp_wmem="4096 65536 67108864" # 启用 Jumbo Frames 设置 MTU 值为 9000 字节 ip link set dev eth0 mtu 9000 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值