支撑开源LLM大模型的私有化部署，需要单机多个不同型号GPU混合使用的同学看过来

灏生

已于 2024-01-12 13:55:07 修改

阅读量2.9k

点赞数 28

文章标签：人工智能深度学习机器学习 pytorch paddlepaddle

于 2024-01-11 17:15:14 首次发布

本文链接：https://blog.csdn.net/weixin_41391403/article/details/135527796

版权

项目场景：

为支撑开源LLM大模型的私有化部署，需要单机多个不同型号GPU的混合使用，度娘、GPT4和机器售后都不知道如何解决，自己动手解决，mark一下。

问题描述

有2台深度学习的工作站，分别有2张3090和2张4090，Qwen-14B-Chat轻松跑起，知识库检索等应用效果还可以，想提升到Qwen-72B-int4（官方要求最低48G显存），于是把4张卡集中到同一台机器（多级多卡也是可以的，但不是每个框架都支持分布式GPU），过程中遇到一些坑，度娘无混卡的案例，gpt4无帮助，2台工作站和4张gpu都是联想供货的，问售后技术的，说没有试过，不知道怎么弄😶，最终还是自己动手解决问题。
fastgpt的同学们说有需求，看到网上还是无案例，就分享一下吧，毕竟有好多年无写技术blog了。