- 免费、本地部署安全性高
- 部分开源模型版本相对落后、硬件资源需求高、性能一般
- 技术门槛高、需要进行一定量的开发工作
- 更新维护成本较高
1.2 大模型接口
- 付费(按需收费)、非本地部署可能存在数据安全问题
- 模型较新、无需硬件资源、性能好
- 开发工作量相对较少
- 实时更新无需维护
2.开源模型整理
2.1 ChatGLM
- ChatGLM-6B(发布时间:2023-03-14;模型文件大小:13.5GB)https://github.com/THUDM/ChatGLM-6B
ChatGLM 是由清华大学 KEG 实验室和智谱 AI 基于千亿基座模型 GLM-130B (General Language Model 通用语言模型)开发的对话语言模型。ChatGLM 在 GLM-130B 的基础上持续进行文本和代码预训练并通过有监督微调等技术实现人类意图对齐,具备文案写作、信息抽取、角色扮演、问答、对话等能力。
量化等级 | 最低GPU显存 |
---|---|
FP16(无量化) | 13GB |
INT8 | 10GB |
INT4 | 6GB |
- ChatGLM2-6B(发布时间:2023-06-25;模型文件大小:12.5GB)https://github.com/THUDM/ChatGLM2-6B
基座模型使用了GLM模型的混合目标函数,在1.4万亿中英文tokens数据集上训练,并做了模型对齐,第二代在各项任务中的提升幅度如下:
评测任务 | 任务类型 | ChatGLM-6B得分 | ChatGLM2-6B得分 | 提升幅度 |
---|---|---|---|---|
MMLU | 英文语言理解 | 40.63 | 47.86 | ↑ 23% |
CEval | 中文大语言模型评估 | 38.9 | 51.7 | ↑ 33% |
GSM8K | 数学(英文版) | 4.82 | 32.37 | ↑ 571% |
BBH | 大语言模型的BIG-Bench Hard任务 | 18.73 | 33.68 | ↑ 60% |
更长的上下文:在第一代ChatGLM-6B上,模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术,升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此,支持更多轮次的对话,并且官方表示将在后续继续优化上下文长度限制。
更高效的推理:ChatGLM2-6B使用了Multi-Query Attention技术,可以在更低地显存资源下以更快的速度进行推理,推理速度相比第一代提升42%!同时,在INT4量化模型中,6G显存的对话长度由1K提升到了8K!
量化等级 | 编码 2048 长度的最小显存 | 生成 8192 长度的最小显存 |
---|---|---|
FP16 / BF16 | 13.1 GB | 12.8 GB |
INT8 | 8.2 GB | 8.1 GB |
INT4 | 5.5 GB | 5.1 GB |
2.2 Baichuan
Baichuan Intelligent Technology是搜狗创始人王小川创办的一家人工智能企业。
- Baichuan-7B(发布时间:2023-09-06;模型文件大小:14GB)https://github.com/baichuan-inc/Baichuan-7B
是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺寸最好的效果。
- Baichuan-13B-Chat(发布时间:2023-07-08;模型文件大小:26.6GB)https://github.com/baichuan-inc/Baichuan-13B
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本