目录
摘要:
今天AI数据中心为企业提供了深度学习开发、测试和生产所需的软硬件环境。然而,GPU作为高价值硬件,却并没有做到像SDN网络、分布式存储一样的数据中心级统一运维、管理和使用。这导致了GPU当前在数据中心的尴尬现状:利用率低、成本高、分配和管理困难。
彻底解决这些痛点的方法需要借鉴软件定义存储解决存储问题,软件定义网络解决网络问题,用软件定义算力来解决GPU问题。采用软件定义算力理念的GPU池化技术,站在整个数据中心的高度,以GPU虚拟化为基础,突破了传统GPU虚拟化技术只能支持GPU共享的限制,融合了GPU共享、聚合和远程使用等多种硬核能力,打造全能型软件定义GPU。
通过把物理GPU抽象成类似于分布式存储,可以通过网络在数据中心内全局统一运维和管理、任意使用的抽象资源,GPU池化技术解决了当前用户的痛点。正如当年软件定义存储刚出现的时候,有一种观点认为软件定义存储性能不如硬件存储,不适合重要应用,GPU池化技术推动的软件定义GPU也遭遇了同样的认识误区,一些片面的观点认为GPU池化技术会引入性能损失,不适合于深度学习。从技术的发展来看,深度学习能够,也应该拥抱GPU池化技术,二者应互相配合,才能为用户提供更适合云的解决方案。
随着深度学习如火如荼地在各企业的落地,很多企业都通过自建私有云或者使用公有云的模式,拥有了自己的AI数据中心,对内或对外提供深度学习的开发、测试和生产环境。在AI数据中心里,算力通常由GPU等加速芯片来提供。由于GPU成本很高,带GPU的计算资源和不带GPU的计算资源的成本相差很大,因此如何优化一个AI数据中心的运营是各个企业的基础架构部门、平台部门和应用部门特别关心的话题。
优化一个数据中心,首先看组成现代计算机系统的三大件:计算、网络和存储。现代的数据中心运营用软件定义网络(SDN)做网络资源抽象,用分布式存储做存储资源抽象。这些今天看起来顺理成章的技术,也曾经历虚拟网络不如物理网络性能高抖动小,分布式存储不如本地存储性能好延迟低且还浪费网络带宽的质疑。直到今天这些经过抽象后的资源性能仍然不如直接使用物理硬件,但是最后其征服整个业界的本质原因就是资源的全局统一运维、管理和使用。“计算“作为三大件之一也不例外。特定地,对于服务于深度学习的AI数据中心,“计算”更多地是围绕着GPU。对GPU资源做数据中心范围内的资源抽象,使其成为和SDN网络、分布式存储一样的全局统一运维、管理和使用的资源,是优化AI数据中心的必然思路,也是行之有效的方法。