NVIDIA GPU虚拟化七版迭代,如今再秀一波!

现如今,GPU对企业级越发重要,虚拟化可以更好地帮助企业充分合理分配GPU资源给更多、更需要的用户,而NVIDIA在此方面的技术尝试更是可圈可点!

5年前,NVIDIA推出了GPU虚拟化。如今NVIDIA GRID从软硬一体到单纯的软件,从一个只能支持一个明确固定型号的GPU,到现在能够高效支持最新Tesla系列的所有GPU;从针对图形图像进行支持来解决客户在使用图形图像时的重负载应用时如何在数据中心部署的问题,到如今在虚拟GPU上实现GPU计算部分能力的业务,可谓创新无限。

NVIDIA GPU虚拟化在vGPU 7.0发布之前,其解决方案最最主要的一个功能就是用户购买一个性能非常强劲的GPU,可以对这个GPU进行切割后分配给很多用户用,但这就会产生一个疑问,一个性能很强劲的物理GPU经过切割后,性能是否会有损失?是不是有一些对GPU性能要求较高的用户不适合做虚拟化呢?

所以到了7.0以后,将多个物理GPU虚拟化后分配给某一个用户就成为现实。也可以说,现在的解决方案会比之前更加灵活,符合vGPU解决方案发展的趋势,通过虚拟化的技术手段满足了更多用户不同场景的需求。

例如,越来越多人工智能应用选择在数据中心中进行训练,训练完成后还要上线推理;与智能音箱进行沟通完成语音识别时,后台会有GPU服务器进行支撑等,当大量GPU数据中心需要被管理起来的时候,需要具备数据中心的特性是传统纯物理的GPU做不到的,只有采用虚拟化的手段弥补在数据中心有一些特性缺失才行,务必不断增强GPU在数据中心的特殊性。

对此,NVIDIA GPU虚拟化高级解决方案架构师张洁表示,目前,NVIDIA的虚拟GPU产品包括三款旨在应对数字化工作环境挑战的产品,分别是面向知识工作者的 NVIDIA GRID 虚拟 PC (GRID vPC) 和 NVIDIA GRID 虚拟应用程序 (GRID vApp),以及面向设计师、工程师和建筑师的NVIDIA Quadro 虚拟数据中心工作站 (Quadro vDWS)。

NVIDIA-GPU虚拟化高级解决方案架构师 张洁

从2018年10月,NVIDIA发布了vGPU 7.0至今,再到近日GPU 7.1的最新出炉,两款产品被统称为7.X,具有很多技术方面的特性,例如多GPU支持。

此外,有一些不太适合通过硬件的形式实现的功能,还可以做到通过软件实现,例如在数据中心的热迁移。

在管理方面,vGPU 7.X版本果断支持无感热迁移,即管理员可以根据用户的权限以及资源的需求来动态分配,用户完全不会感受到切换过程并充分保证使用的连续性。

据悉,现在已经可以支持VMware和Citrix的服务器虚拟化平台在数据中心中挂上vGPU虚拟机,在数据中心进行业务不中断的迁移,被称为vMotion动态迁移的实现。

之前,在物理GPU上,NVIDIA发布了整机解决方案DGX-1,DGX-1可以配合NVIDIA GPU Cloud (NGC)将其优化好的人工智能神经网络框架下载到DGX-1这种一机8卡或者一机16卡的环境中做训练。

据介绍,现在同样可以把NGC配合NVIDIA vGPU软件使用,将NGC上优化好的Docker镜像直接下载到vGPU环境中进行推理和训练;所以传统物理环境特性都会被移植到虚拟化环境中,经过验证以确保性能和兼容性。

此外十分重要的一点,支持Tesla T4,这是全新基于图灵架构的GPU。拥有Tensor Core做人工智能加速,RT Core做实时光线追踪加速,有CUDA Core做图形和计算等超强大功能。

NVIDIA vGPU随之而来的功能更新自然而然就会带来场景上的拓展。

有消息称,微软将在2020年1月正式停止对Win 7的支持,越来越多用户会迁移到Win10,所以也将会有越来越多虚拟桌面的用户会迁移到Windows 10,毋庸置疑Window 10对GPU较高,而这一点十分值得在NVIDIA vGPU领域提起关注。

目前,针对新版本升级方面的支持,从售前层面来看, NVIDIA会告知用户对升级的要求,并明确有哪些硬件和软件的诉求需要被满足才能够成功进行升级;而售后团队则是在升级过程中,或者升级遇到问题时,帮助用户去解决升级后的一系列问题。

由于vGPU解决方案是配合服务器虚拟化厂商一起向最终用户提供服务的,一般情况下并不需要升级最底层的服务器虚拟化平台,仅仅升级vGPU软件就可以帮助用户实现最新功能的成功加持。

细数七个版本的升级迭代,从2013年发布第一版本的vGPU解决方案后,NVIDIA 技术呈现了诸多与时俱进的变化。

从灵活性角度出发,过去由于vGPU受限于硬件的限制,只能在有限的几款GPU上做GPU虚拟化,而现在终于可以在所有的Tesla数据中心GPU上做虚拟化;不得不说GPU做虚拟化是随着NVIDIA的GPU性能越来越强劲而实现的,针对算力的不同需求,通过虚拟化手段灵活调配与管理。

从适配性角度来说,最早的vGPU解决方案是和服务器虚拟化厂商一起联合推出的。2013年,NVIDIA只支持Citrix服务器虚拟化XenServer,到了2015年就妥妥支持三家虚拟化平台,包括VMware在内,如今已经完成共计7家虚拟化平台的支持,进步飞速。

从创新性以及本土性探讨,版本不断升级发展的过程中加入了很多数据中心的特性。例如vGPU 4.0加入了监控功能,用户可以通过监控管理功能从数据中心角度看到GPU、vGPU、vGPU中应用程序的使用情况。

NVIDIA-Proviz亚太区业务主管 沈威

重要的是,从vGPU 6.0开始,NVIDIA就对国内厂商进行了大范围的支持。这些厂商的服务器虚拟化平台经过与NVIDIA工程师团队进行对接,共同发布了支持他们虚拟化平台的vGPU解决方案,例如深信服,而这些vGPU解决方案在性能、功能上与国际厂商保持一致。

如今的7.x的版本可谓是更具里程碑意义的版本。该版本里加入了计算功能,切割出来的vGPU既可以做图形又可以做计算,其通用性可以适应更多的场景,想必以后无论是自身性能的彰显还是在“TDI+vGPU”技术发展方向上都会有更惊艳的表现。

发布了249 篇原创文章 · 获赞 758 · 访问量 25万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 技术黑板 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览