盘活存量GPU资源 破局高校算力不足窘境

“凭啥做大模型的优先分配算力?人家1个人4块A800,我们10个人用2块3090!这日子没法过了!”听着团队成员们的吐槽,某国内顶尖高校非大模型团队带队的博士老W也颇为无奈:“我们虽然不是做大模型的,但也不代表我们做数据科学的不需要算力啊?”如果不做大模型,就无法获得足够的算力。这就是ChatGPT爆火后中国高校AI实验室中的残酷现实。

老W亲身经历证实了这一现象,他所在的高校AI实验室中,他的团队只有2块3090显卡可用,而大模型小组则有4个人可以使用16块A800显卡。这是因为巨大规模算力以月为单位的租用成本对研究团队来说是一笔不小的开支,而大模型研究正当其道,因此学界研究大模型的实验室或团队拥有算力资源的优先分配权。

图片

这个想法刚一冒头,随即就被老W自己否决了。如今,在众人争先恐后扑向GPT等大模型的当下,非大模型团队已经很难获得外部企业算力支持了,校企合作也更倾向于大模型。自从ChatGPT发布后,与非大模型团队合作的企业急剧减少,最近前来找他们的企业也都问同一个问题:你们在做大模型吗?如果做,就能得到高校和企业的全力支持;如果不做,就只能眼睁睁看着算力被其他人占用。即使有高性能GPU对非大模型研究团队开放申请,也不见得能分配到一张卡给你。

此外,实验室需要运转和维护的经费也是一大问题。为了获得拨款,申请国家项目是一种形式,但必要步骤是提供论文成果。因此,为了获得更多的资源,一些非大模型实验室甚至额外成立研究大模型的团队。

拥抱主流趋势是一重原因,同时大模型研究相对容易出成果,因此不得不优先分配有限的算力资源给这些热门研究。然而,训练一个大模型需要大量的数据、算力和资金,这对学界来说都是一个挑战。

图片

本就稀缺的算力,在学界又有成为追逐热点砝码的倾向,“做大模型,意味着放弃现有研究成果,同时要面临同类团队无尽的内卷;不做?对不起,没算力给你,现在的研究一样进行困难!”

老W此刻叹了口气,“哎,太难了,咋办?

“老W,您还在为算力发愁呢?最少现在咱还有2块3090可用,这已经算不错了。”见老W一脸愁容,邻座的组员小A赶紧过来安慰。

其实大家都知道GPU的重要性,现在算力严重不足,又没有富裕的高性能GPU可用。是不是要几个人换班用?一想到这里,小A不禁想起了过去穷人家全家只有一身衣裳,谁出门办事谁就穿上,其他人,对不起只能在家光着。

GPU虚拟化

接下来的几天,实验室中总是有一种压抑的氛围,老W也变得越来越烦躁。他希望能给自己的团队找到更好的算力资源,甚至希望能够把一块卡劈成两半用,至少能解决目前GPU算力不足的问题。

直到小A问了一个直戳灵魂的问题:

图片

“怎么可能,你想多了?” 老W笑着。事实上,无论是人体还是机器,都不太可能24小时不间断运行。写程序、改BUG、调试等工作都需要大量的时间,而GPU最重要的是后期的数据处理。从这一点来说,GPU完成了最关键的、最具压力的部分,但并不代表它必须贯穿应用的始终。

趋动科技的GPU池化技术

GPU虚拟化技术已经快速迭代,通过池化技术实现CPU与GPU的协同应用,统一管理可以实现按需调度和动态伸缩。随着GPU从虚拟化到池化的转变,现在的技术已经可以实现AI应用与物理GPU服务器分离部署,实现GPU池化层面的软件定义。用户可以更轻松地远程调用和统一管理GPU资源,真正实现了云端的按需分配和弹性扩展。

图片

经过用户测试,使用OrionX进行资源池化后,可以将GPU卡节约60%以上,同时系统可以实现真正24小时不间断,整体的运行效率提升了4倍。

老W自言自语道:“看来咱们不足的算力能找回来了。”

除了性能提升之外,GPU池化的优势还在于资源管理。OrionX提供了清晰明了的GUI图形界面,让运维人员可以清楚地看到资源池的节点情况,包括哪些资源忙碌、哪些资源闲置都是一目了然。这些优势让组织管理者对于业务更专注,是趋动科技相比同类企业的核心竞争力。

图片

特别是对于老W所在的非大模型团队来说,2024年充满了挑战和未知,而灵活、高效的系统也让科研教学充满了活力和优势,更容易在竞争中抢占先机。

“好小子!有你的!趋动科技这套解决方案简直是为咱们量身定制的!快把这些资料发我邮箱,我这就去跟院长汇报。” 老W刚要转身。

先别着急去,小A拦下老W,您还漏看了一点:“如今低碳节能是大趋势,咱们实验室要是用了趋动科技OrionX解决方案,光采购费、电费就能省下大几十万,还能提升400%的GPU综合利用率,减少碳排放上万千克。”

“好嘞,有了这个事情指定办成!晚上叫上所有人,撸串!我请客!”

  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值