本地离线模型搭建指南-中文大语言模型底座选择依据

Master_Shifu_

已于 2024-06-23 17:38:21 修改

阅读量1.4k

点赞数 10

文章标签：语言模型人工智能自然语言处理

于 2024-06-23 17:21:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/master_shifu_/article/details/139903072

版权

搭建一个本地中文大语言模型（LLM）涉及多个关键步骤，从选择模型底座，到运行机器和框架，再到具体的架构实现和训练方式。以下是一个详细的指南，帮助你从零开始构建和运行一个中文大语言模型。

本地离线模型搭建指南将按照以下四个部分展开

1 中文大语言模型底座选择依据

在选择中文大语言模型（LLM）的底座时，可以参考以下几个关键因素：

1.1 模型规模与参数

根据具体应用场景选择不同规模的模型。比如：

ChatGLM系列：包含6B参数的模型，适合中小规模应用，且支持商业用途。
LLaMA系列：提供7B、8B、13B、33B和70B等多种规模，部分版本可商用。
Baichuan系列：提供7B和13B参数的模型，适合需要较大规模的应用。
Qwen系列：提供7B、14B、72B和110B参数的模型，支持较长的上下文长度，适合复杂场景。
BLOOM：从1B到176B-MT，多种规模选择。
Aquila系列：包括7B和34B参数版本。
InternLM系列：从7B到20B参数，支持代码应用。
Mixtral、Yi、DeepSeek、XVERSE等：提供多种参数规模，适合不同应用需求。

在这里插入图片描述

常见底座模型细节概览：

底座	包含模型	模型参数大小	训练token数	训练最大长度	是否可商用
ChatGLM	ChatGLM/2/3 Base&Chat	6B	1T/1.4	2K/32K	可商用
LLaMA	LLaMA/2/3 Base&Chat	7B/8B/13B/33B/70B	1T/2T	2k/4k	部分可商用
Baichuan	Baichuan/2 Base&Chat	7B/13B	1.2T/1.4T	4k	可商用
Qwen	Qwen/1.5 Base&Chat	7B/14B/72B/110B	2.2T/3T	8k/32k	可商用
BLOOM	BLOOM	1B/7B/176B-MT	1.5T	2k	可商用
Aquila	Aquila/2 Base/Chat	7B/34B	-	2k	可商用
InternLM	InternLM/2 Base/Chat/Code	7B/20B	-	200k	可商用
Mixtral	Base&Chat	8x7B	-	32k	可商用
Yi	Base&Chat	6B/9B/34B	3T	200k	可商用
DeepSeek	Base&Chat	1.3B/7B/33B/67B	-	4k	可商用
XVERSE	Base&Chat	7B/13B/65B/A4.2B	2.6T/3.2T	8k/16k/256k	可商用

1.2 训练数据与Token数

不同模型经过不同规模的数据训练，影响其在特定任务上的表现：

ChatGLM：经过1到1.4T的中英文标识符训练，适合中文问答和对话。
LLaMA：经过1T到2T的训练。
Baichuan：训练数据在1.2T到1.4T之间。
Qwen：训练数据量高达2.2T到3T，支持复杂任务。
BLOOM：经过1.5T的训练。
XVERSE：训练数据量达2.6T到3.2T。

1.3 上下文长度支持

根据应用需求选择支持较长上下文长度的模型：

ChatGLM2-6B：上下文长度扩展到32K。
Qwen：支持8K到32K的上下文长度。
Mixtral、Yi、DeepSeek：支持200k到256k的上下文长度。

1.4 商业用途许可

确保所选模型允许商业用途：

ChatGLM、LLaMA、Baichuan、Qwen、BLOOM、Aquila、InternLM、Mixtral、Yi、DeepSeek、XVERSE等模型均允许商业用途。

1.5 垂直领域微调与应用

考虑模型在特定领域的微调效果：

医疗、法律、金融、教育、科技、电商、网络安全、农业等领域的垂直应用。

1.6 具体模型推荐

以下是一些具体的模型推荐及其特点：

ChatGLM系列：适合中文问答和对话，经过中英文双语训练，支持商业用途。
LLaMA系列：提供多种规模，部分版本适合商用。
Baichuan系列：适合需要较大规模训练的应用。
Qwen系列：支持复杂任务和长上下文长度。
InternLM系列：适合代码相关应用。

更多详细信息和具体模型的链接，请访问 Awesome-Chinese-LLM 项目。

下一篇介绍
本地离线模型搭建指南-本地运行显卡选择

关注

10
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Master_Shifu_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

95: 原创

5万+: 周排名

3万+: 总排名

68万+: 访问

: 等级

4136: 积分

217: 粉丝

351: 获赞

131: 评论

1027: 收藏

私信

关注

热门文章

分类专栏

最新评论

java在Excel中添加png图片作为页眉(已解决)
大超大超大超: 第一个方法同时设置页眉和页脚图片，excel打不开
本地离线模型搭建指南-LLaMA-Factory训练框架及工具
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619068191。
sql多表关联查询使用JOIN..ON与where的优化场景
qq_39054053: 刚试了完全就不是说什么优化，左连接使用on两个条件仍然是左连接你替换where以后查询结果都不一样了还优化，where在生成临时表后剔除不满足条件的记录，而left join里会保留左边筛选右边的即便右边不满于左边的记录是一定有的，你确定这叫优化？查询结果都不一样这又不是inner join
前后端（JAVA）实现AES对称加解密方式
普通网友: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
websocket多线程发送消息报错TEXT_PARTIAL_WRITING--自旋锁替换synchronized独占锁的使用案例
零号工作者: 博主你好，我有一个疑问，从你的自旋工具类来看是多个线程请求锁然后只授权一个线程，要是不同的线程给不同的session发消息，那不就会变成所有session的消息都只能一个一个通过吗，我想要让同一个session的消息一个个发，不同的session互不干拢，是要给每个session都分配一个自旋锁吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。