2023年10月11日,由赛诺信致软件技术(北京)有限公司与NVIDIA联合主办的“科技赋能·算定乾坤—赛诺信致技术方案研讨会”在北京举行。蓝耘科技作为GPU算力云服务企业代表及NVIDIA NPN合作伙伴应邀出席,与NVIDIA技术专家们围绕InfiniBand网络助力智能算力、模型训练场景内网络性能调优、InfiniBand网络管理、AI网络架构等展开了深入探讨交流,分享行业前沿技术,共探未来发展趋势。
蓝耘解决方案架构师杨超,发表了以“蓝耘智算中心使用UFM管理InfiniBand网络”为主题的演讲,就UFM应用实践、IB网络管理及优化探索等维度分享洞见。
智算中心作为赋能科技创新、助推产业转型升级的重要数据枢纽和应用载体,承载着大规模的数据存储和计算任务,不可预期的网络故障可能会造成计算任务的意外终止。AI竞速时代下,能够快速识别问题以实现智算中心的高效管理对于IT 运维人员和开发者而言显得尤为重要。
NVIDIA UFM(Unified Fabric Manager)作为一款用于管理InfiniBand环境的强大平台,能够助力运维人员对当前的IB网络进行更高效地调配、监控、管理、预防性故障排除及维护,同时提升应用程序的表现,确保链路在任何时间都是可运行的。本次分享中,杨超从UFM平台介绍、功能使用、应用实践几个维度向与会嘉宾分享阐释了蓝耘利用UFM平台对蓝耘智算