项目场景:
为支撑开源LLM大模型的私有化部署,需要单机多个不同型号GPU的混合使用,度娘、GPT4和机器售后都不知道如何解决,自己动手解决,mark一下。
问题描述
有2台深度学习的工作站,分别有2张3090和2张4090,Qwen-14B-Chat轻松跑起,知识库检索等应用效果还可以,想提升到Qwen-72B-int4(官方要求最低48G显存),于是把4张卡集中到同一台机器(多级多卡也是可以的,但不是每个框架都支持分布式GPU),过程中遇到一些坑,度娘无混卡的案例,gpt4无帮助,2台工作站和4张gpu都是联想供货的,问售后技术的,说没有试过,不知道怎么弄😶,最终还是自己动手解决问题。
fastgpt的同学们说有需求,看到网上还是无案例,就分享一下吧,毕竟有好多年无写技术blog了。
解决方案:
首先是单卡和同型号多卡的安装步骤,网上资源很多,这里简单总结一下:
1、显卡驱动
2、粗大安装(cuda)
3、cudnn安装
4、多GPU驱动安装
5、验证