本地离线模型搭建指南-中文大语言模型底座选择依据

Master_Shifu_

已于 2024-06-23 17:38:21 修改

阅读量1.2k

点赞数 10

文章标签：语言模型人工智能自然语言处理

于 2024-06-23 17:21:05 首次发布

本文链接：https://blog.csdn.net/Master_Shifu_/article/details/139903072

版权

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

1 中文大语言模型底座选择依据

在选择中文大语言模型（LLM）的底座时，可以参考以下几个关键因素：

根据具体应用场景选择不同规模的模型。比如：

在这里插入图片描述

底座	包含模型	模型参数大小	训练token数	训练最大长度	是否可商用
ChatGLM	ChatGLM/2/3 Base&Chat	6B	1T/1.4	2K/32K	可商用
LLaMA	LLaMA/2/3 Base&Chat	7B/8B/13B/33B/70B	1T/2T	2k/4k	部分可商用
Baichuan	Baichuan/2 Base&Chat	7B/13B	1.2T/1.4T	4k	可商用
Qwen	Qwen/1.5 Base&Chat	7B/14B/72B/110B	2.2T/3T	8k/32k	可商用
BLOOM	BLOOM	1B/7B/176B-MT	1.5T	2k	可商用
Aquila	Aquila/2 Base/Chat	7B/34B	-	2k	可商用
InternLM	InternLM/2 Base/Chat/Code	7B/20B	-	200k	可商用
Mixtral	Base&Chat	8x7B	-	32k	可商用
Yi	Base&Chat	6B/9B/34B	3T	200k	可商用
DeepSeek	Base&Chat	1.3B/7B/33B/67B	-	4k	可商用
XVERSE	Base&Chat	7B/13B/65B/A4.2B	2.6T/3.2T	8k/16k/256k	可商用

不同模型经过不同规模的数据训练，影响其在特定任务上的表现：

根据应用需求选择支持较长上下文长度的模型：

确保所选模型允许商业用途：

ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

考虑模型在特定领域的微调效果：

以下是一些具体的模型推荐及其特点：

更多详细信息和具体模型的链接，请访问 Awesome-Chinese-LLM 项目。

下一篇介绍
本地离线模型搭建指南-本地运行显卡选择

关注