论软件定义GPU对AI数据中心优化的必要性

本文探讨了AI数据中心GPU利用率低、成本高、管理困难的问题,提出软件定义GPU(GPU池化技术)是解决痛点的有效方法。OrionX作为GPU池化软件,能提高GPU资源的全局统一运维、管理和使用,支持深度学习的训练和推理任务,且在性能上与物理GPU相差不大。深度学习应拥抱GPU池化技术,以实现更高效的资源利用和优化AI数据中心运营。
摘要由CSDN通过智能技术生成

目录

摘要:

AI数据中心的痛点

解决痛点的方向——GPU池化技术

OrionX GPU池化软件的效率

总结


摘要:

今天AI数据中心为企业提供了深度学习开发、测试和生产所需的软硬件环境。然而,GPU作为高价值硬件,却并没有做到像SDN网络、分布式存储一样的数据中心级统一运维、管理和使用。这导致了GPU当前在数据中心的尴尬现状:利用率低、成本高、分配和管理困难。

彻底解决这些痛点的方法需要借鉴软件定义存储解决存储问题,软件定义网络解决网络问题,用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术,站在整个数据中心的高度,以GPU虚拟化为基础,突破了传统GPU虚拟化技术只能支持GPU共享的限制,融合了GPU共享、聚合和远程使用等多种硬核能力,打造全能型软件定义GPU。

通过把物理GPU抽象成类似于分布式存储,可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源,GPU池化技术解决了当前用户的痛点。正如当年软件定义存储刚出现的时候,有一种观点认为软件定义存储性能不如硬件存储,不适合重要应用,GPU池化技术推动的软件定义GPU也遭遇了同样的认识误区,一些片面的观点认为GPU池化技术会引入性能损失,不适合于深度学习。从技术的发展来看,深度学习能够,也应该拥抱GPU池化技术,二者应互相配合,才能为用户提供更适合云的解决方案。


随着深度学习如火如荼地在各企业的落地,很多企业都通过自建私有云或者使用公有云的模式,拥有了自己的AI数据中心,对内或对外提供深度学习的开发、测试和生产环境。在AI数据中心里,算力通常由GPU等加速芯片来提供。由于GPU成本很高,带GPU的计算资源和不带GPU的计算资源的成本相差很大,因此如何优化一个AI数据中心的运营是各个企业的基础架构部门、平台部门和应用部门特别关心的话题。

优化一个数据中心,首先看组成现代计算机系统的三大件:计算、网络和存储。现代的数据中心运营用软件定义网络(SDN)做网络资源抽象,用分布式存储做存储资源抽象。这些今天看起来顺理成章的技术,也曾经历虚拟网络不如物理网络性能高抖动小,分布式存储不如本地存储性能好延迟低且还浪费网络带宽的质疑。直到今天这些经过抽象后的资源性能仍然不如直接使用物理硬件,但是最后其征服整个业界的本质原因就是资源的全局统一运维、管理和使用。“计算“作为三大件之一也不例外。特定地,对于服务于深度学习的AI数据中心,“计算”更多地是围绕着GPU。对GPU资源做数据中心范围内的资源抽象,使其成为和SDN网络、分布式存储一样的全局统一运维、管理和使用的资源,是优化AI数据中心的必然思路,也是行之有效的方法。

AI数据中心的痛点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值