论软件定义GPU对AI数据中心优化的必要性

virtaitech

于 2021-08-05 17:31:11 发布

阅读量238

点赞数

文章标签： ai gpu

本文链接：https://blog.csdn.net/m0_49711991/article/details/119423059

版权

本文探讨了AI数据中心GPU利用率低、成本高、管理困难的问题，提出软件定义GPU（GPU池化技术）是解决痛点的有效方法。OrionX作为GPU池化软件，能提高GPU资源的全局统一运维、管理和使用，支持深度学习的训练和推理任务，且在性能上与物理GPU相差不大。深度学习应拥抱GPU池化技术，以实现更高效的资源利用和优化AI数据中心运营。

摘要由CSDN通过智能技术生成

摘要：

今天AI数据中心为企业提供了深度学习开发、测试和生产所需的软硬件环境。然而，GPU作为高价值硬件，却并没有做到像SDN网络、分布式存储一样的数据中心级统一运维、管理和使用。这导致了GPU当前在数据中心的尴尬现状：利用率低、成本高、分配和管理困难。

彻底解决这些痛点的方法需要借鉴软件定义存储解决存储问题，软件定义网络解决网络问题，用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术，站在整个数据中心的高度，以GPU虚拟化为基础，突破了传统GPU虚拟化技术只能支持GPU共享的限制，融合了GPU共享、聚合和远程使用等多种硬核能力，打造全能型软件定义GPU。

通过把物理GPU抽象成类似于分布式存储，可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源，GPU池化技术解决了当前用户的痛点。正如当年软件定义存储刚出现的时候，有一种观点认为软件定义存储性能不如硬件存储，不适合重要应用，GPU池化技术推动的软件定义GPU也遭遇了同样的认识误区，一些片面的观点认为GPU池化技术会引入性能损失，不适合于深度学习。从技术的发展来看，深度学习能够，也应该拥抱GPU池化技术，二者应互相配合，才能为用户提供更适合云的解决方案。

随着深度学习如火如荼地在各企业的落地，很多企业都通过自建私有云或者使用公有云的模式，拥有了自己的AI数据中心，对内或对外提供深度学习的开发、测试和生产环境。在AI数据中心里，算力通常由GPU等加速芯片来提供。由于GPU成本很高，带GPU的计算资源和不带GPU的计算资源的成本相差很大，因此如何优化一个AI数据中心的运营是各个企业的基础架构部门、平台部门和应用部门特别关心的话题。

优化一个数据中心，首先看组成现代计算机系统的三大件：计算、网络和存储。现代的数据中心运营用软件定义网络（SDN）做网络资源抽象，用分布式存储做存储资源抽象。这些今天看起来顺理成章的技术，也曾经历虚拟网络不如物理网络性能高抖动小，分布式存储不如本地存储性能好延迟低且还浪费网络带宽的质疑。直到今天这些经过抽象后的资源性能仍然不如直接使用物理硬件，但是最后其征服整个业界的本质原因就是资源的全局统一运维、管理和使用。“计算“作为三大件之一也不例外。特定地，对于服务于深度学习的AI数据中心，“计算”更多地是围绕着GPU。对GPU资源做数据中心范围内的资源抽象，使其成为和SDN网络、分布式存储一样的全局统一运维、管理和使用的资源，是优化AI数据中心的必然思路，也是行之有效的方法。