智算时代下InfiniBand网络管理优化路径探索

蓝耘科技在“科技赋能·算定乾坤—赛诺信致技术方案研讨会”上分享了如何使用NVIDIA UFM管理InfiniBand网络,以提升智算中心的效率和稳定性。UFM提供了网络的可见性和可观测性,帮助运维人员实时监控和解决问题,确保GPU算力服务的连续性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2023年10月11日,由赛诺信致软件技术(北京)有限公司与NVIDIA联合主办的“科技赋能·算定乾坤—赛诺信致技术方案研讨会”在北京举行。蓝耘科技作为GPU算力云服务企业代表及NVIDIA NPN合作伙伴应邀出席,与NVIDIA技术专家们围绕InfiniBand网络助力智能算力、模型训练场景内网络性能调优、InfiniBand网络管理、AI网络架构等展开了深入探讨交流,分享行业前沿技术,共探未来发展趋势。

蓝耘解决方案架构师杨超,发表了以“蓝耘智算中心使用UFM管理InfiniBand网络”为主题的演讲,就UFM应用实践、IB网络管理及优化探索等维度分享洞见。

智算中心作为赋能科技创新、助推产业转型升级的重要数据枢纽和应用载体,承载着大规模的数据存储和计算任务,不可预期的网络故障可能会造成计算任务的意外终止。AI竞速时代下,能够快速识别问题以实现智算中心的高效管理对于IT 运维人员和开发者而言显得尤为重要。

NVIDIA UFM(Unified Fabric Manager)作为一款用于管理InfiniBand环境的强大平台,能够助力运维人员对当前的IB网络进行更高效地调配、监控、管理、预防性故障排除及维护,同时提升应用程序的表现,确保链路在任何时间都是可运行的。本次分享中,杨超从UFM平台介绍、功能使用、应用实践几个维度向与会嘉宾分享阐释了蓝耘利用UFM平台对蓝耘智算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值