本地离线模型搭建指南-本地运行显卡选择

Master_Shifu_

已于 2024-06-23 17:37:58 修改

阅读量3.4k

点赞数 13

文章标签：语言模型人工智能自然语言处理

于 2024-06-23 16:49:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Master_Shifu_/article/details/139902029

版权

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

2本地运行显卡选择

在Awesome-Chinese-LLM仓库中，有许多中文大语言模型适合在本地运行。对于需要选择消费级别显卡的用户，可以参考以下信息：

2.1 适合消费级别显卡运行的模型参数大小

大小为6B或7B，部分8B的模型，可以在消费级别的显卡上运行。显存建议8G起步，否则会出现模型加载不成功的问题。
这些模型参数大小同样也可以在CPU上远行，但聊天文字生成速度只有同类型显卡的1/5-1/10。CPU配置最低建议16核心，32G内存。

2.2 推荐消费级别显卡

NVIDIA GeForce RTX 4060 至 4090 系列，显存12GB起步。
NVIDIA T4卡也可以运行本地模型。

2.3 性能比较

T4卡：服务器级别GPU计算图形显卡，本地运行模型推荐12G起步，大致对等评估，T4卡16G的性能和4070T16G显存性能一致。
RTX 4060-4090 系列：消费级显卡，性能强劲，显存从12GB到24GB不等，适合高性能计算和深度学习任务，本地运行模型推荐12G起步。

2.4 消费级显卡配置建议

优先选择单卡配置：单卡配置简单，易于管理。
双卡配置：消费级台式机最多支持两张显卡集火（NVIDIA SLI或NVLink）。

若需突破双卡限制：

请查阅并考虑使用华硕 ESC8000-G4 服务器配置，该服务器支持多达8张显卡的集火，适用于更大规模的计算需求。

2.5 本地部署模型实践运行配置

底座	包含模型	模型参数大小	机器配置	显存大小	是否可运行
ChatGLM	ChatGLM3-6B	6B	CPU 16核心 32G内存	无	可以
ChatGLM	ChatGLM3-6B	6B	显卡4070Ti	16G	可以
ChatGLM	ChatGLM4-9B	9B	显卡4070Ti	16G	可以
LLaMA	Chinese-LlaMA2	7B	显卡3060Ti	8G	可以
Qwen	Qwen1.5	7B	显卡4070Ti	16G	可以

注意：以上运行均值单独运行模型后是否可以运行以及显存是否够用，如果后期做RAG架构，ChatGLM4-9B模型在16G显存上不够，刚好差200M的显存，所以如果买新显卡，如果预算够，显存是第一优先考虑选项，之后才是显卡的计算能力。

2.6 相关模型链接

选择适合的显卡和配置，可以在本地高效地运行这些中文大语言模型。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。