突破性能瓶颈:DeepSeek 2台 H20推理组网方案揭秘

 概述

随着人工智能技术的迅速发展,许多企业在推理任务上面临越来越大的计算需求。在单台一体机无法满足高并发、大规模推理要求的情况下,DeepSeek 推理解决方案通过多台推理一体机组网协同工作,为企业提供灵活、高效、可扩展的解决方案。通过将多台DeepSeek H20一体机组合成推理集群,企业可以充分利用计算资源,实现高效的推理任务处理,提升业务决策的精准性和响应速度。 下面以2台H20为例来说一说具体组网方案。 

H20  简介

NVIDIA H20 是一款高性能的GPU,专为大规模人工智能推理任务和高吞吐量计算而设计。它基于NVIDIA的最新架构,提供强大的计算能力和优化的推理性能,适用于从深度学习推理到大规模数据处理等多种应用场景。H20搭载NVIDIA的高效计算核心和高速互联技术,能在提供卓越性能的同时,确保能效和可靠性,尤其在处理复杂的AI工作负载时展现出其卓越的优势。

作为一款专注于训练和推理的芯片,H20在大语言模型推理任务上比H100快20%。然而,H20的性能在多个方面受到限制,包括仅提供FP64精度1 TFLOPS(相比H100的34 TFLOPS)和FP16/BF16精度148 TFLOPS(相比H100的1,979 TFLOPS),这导致在带宽和计算速度等关键指标上存在限制,整体算力理论上比H100降低约80%。

我们配置了2台8卡H20 GPU服务器,用于DeepSeek的推理服务,并通过InfiniBand(IB)组网来确保网络性能达到最佳水平。这种组合在提供强大计算能力的同时,还能实现高速、低延迟的数据传输,保障了推理服务的高效性和稳定性。

下面是2台H20服务器的具体配置:

类别详细信息
CPUXEON 8468V *2
内存DDRS 4800 64G * 32
GPUNV HGX H20 8-GPU 96GB
系统盘960G 2.5 SATA SSD * 2
数据盘3.84T 2.5 SATA SSD * 4
磁盘阵列4GB SAS 8 口 Raid 卡
IB 卡(计算)NDR CX7 400G 单口 HCA 卡 * 4
IB 卡(存储)NDR CX7 200G 单口 HCA 卡 * 1
管理网卡10G * 2

其中计算网的IB卡为 400G的 CX7 单口卡。  根据这个卡的型号好端口的速率, 我们知道需要组建 400G的IB网络。 

计算网组网: 

     根据H20机器配备的CX7 400G单口网卡,我们知道需要组建的计算网络为400G的IB网, 因此我们需要型号为 MQM9700-NS2R 的NDR交换机,以及800G的光模块  400G的光模块和400G的mpo光纤。 

下面为需要的组网清单: 

设备名称产品编码描述数量
NDR交换机MQM9700-NS2RNVIDIA Mellanox Quantum 2 based NDR InfiniBand Switch, 64 NDR ports, 32 OSFP ports, 2 Power Supplies (AC), Standard depth, managed, C2P airflow, Rail Kit1
光模块800GMMA4Z00-NSNVIDIA twin port transceiver, 800Gbps,2xNDR, OSFP, 2xMPO12 APC, 850nm MM F, up to 50m, finned4
光模块400GMMA4Z00-NS400NVIDIA single port transceiver, 400Gbps,NDR, OSFP, MPO12 APC, 850nm MMF, up to 50m, flat top8
MPO 光纤MFP7E10-N007NVIDIA passive fiber cable, MMF, MPO12 APC to MPO12 APC, 7m8

其中 NDR交换机 推荐使用  带R 的反向的交换机,这样的好处是 热风不会直接吹在光模块上从而减少光模块的故障率。 型号也需要是9700的不能是9790,9700的交换机是带管理功能的,可以直接在里面开启子网服务。 如果使用9790还需要额外配置UFM才能工作, 费用就会高很多。  MFP7E10-N007 为7米的MPO线 ,只有2台H20的情况下 ,我们是建议 H20和交换机放在同一个机柜或者相邻的机柜, 这样7米的mpo线也足够长度使用的了。   800G光模块是插在9700交换机上的, 400G光模块是用在H20的IB网卡上的。 

下面为计算网的拓扑网络图: 

管理网组网: 

管理网络包括带内和带外,由于H20配置的是10G*2 的网卡, 和一个千兆的BMC管理口。 因此我们需要配置一台万兆的RJ45的交换机。 至于端口数24口和48口都可以, 因为只有2台H20, 如果为了扩的话可以配满48口。  我这里选的是华为的48电口的CE6857F-48T6CQ 交换机。 

下面是管理网络拓扑图

管理网交换机需要上联到数据中心的核心交换机上或者VPM防火墙上。 

存储网络: 

由于只有2台H20的服务器, 存储网络是没有必要配备的, 加本地存储基本也就够用的了, 如果确实需要可以参考计算网络组400G的存储网络, 也可以使用HDR的8700系列的交换机组建200G的存储网络。 这里就不详细展开了 

配置网络: 

 IB网络的配置相对比较简单, 只需要连接到9700的交换机上, 通过命令行打开子网就可以了 。 

步骤1. 通过串口 115200 连接到9700   默认用户名和密码一般都为admin 

步骤2.  修改机器名称

enable

con t

hostname xxx

步骤3. 启动子网

ib sm

步骤4. 保存配置

con w

如果您对此方案感兴趣, 请联系我们。                                      

也可以使用我们的API服务: 
https://api.baystoneai.com

### 关于 Deepseek671b 和 H2O-141 的技术信息 对于 Deepseek671b 和 H2O-141 这两个特定的技术或产品,当前的信息较为有限。然而,在北京大学多媒体信息处理重点实验室以及PKU-Anker LLM 实验室的工作中提到的研究进展可能与此类大型模型有关[^1]。 #### Deepseek671b 技术概述 Deepseek671b 可能是指一种具有大规模参数量的语言模型或其他类型的深度学习模型。这类模型通常具备强大的自然语言理解和生成能力,适用于多种高级应用场合,如对话系统、机器翻译等。由于其庞大的规模,该模型可能会面临与 GQA/MQA 等现代高效解码架构的内存共享设计冲突的问题,这会限制内存访问优化的潜力[^2]。 #### H2O-141 技术分析 关于 H2O-141 的具体细节同样不详尽,但从命名推测可能是某个特定版本或是针对某一领域定制化的解决方案。如果这是一个基于水(H₂O)相关的模拟工具或者是某种化学物质,则需要查阅更专业的文献来获取确切的功能描述和技术规格。 为了获得最准确的产品说明和技术文档,建议直接联系制造商或开发者团队索取官方发布的使用手册及相关资料。此外,也可以通过学术数据库和专利库进一步探索这两个项目的背景信息和发展历程。 ```python # 示例代码用于展示如何查询相关资源(假设存在API接口) import requests def fetch_technical_docs(model_name): url = f"https://api.example.com/search?query={model_name}" response = requests.get(url) if response.status_code == 200: return response.json() else: raise Exception("Failed to retrieve documents") try: deepseek_info = fetch_technical_docs('Deepseek671b') h2o_info = fetch_technical_docs('H2O-141') except Exception as e: print(e) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值