AI大模型【基础 01】智能AI开源模型与大模型接口整理（8个开源模型+7个大模型接口）_ai模型接口

本文链接：https://blog.csdn.net/2401_87298512/article/details/142418244

免费、本地部署安全性高
部分开源模型版本相对落后、硬件资源需求高、性能一般
技术门槛高、需要进行一定量的开发工作
更新维护成本较高

1.2 大模型接口

付费（按需收费）、非本地部署可能存在数据安全问题
模型较新、无需硬件资源、性能好
开发工作量相对较少
实时更新无需维护

2.开源模型整理

2.1 ChatGLM

ChatGLM-6B（发布时间：2023-03-14；模型文件大小：13.5GB）https://github.com/THUDM/ChatGLM-6B

ChatGLM 是由清华大学 KEG 实验室和智谱 AI 基于千亿基座模型 GLM-130B (General Language Model 通用语言模型)开发的对话语言模型。ChatGLM 在 GLM-130B 的基础上持续进行文本和代码预训练并通过有监督微调等技术实现人类意图对齐，具备文案写作、信息抽取、角色扮演、问答、对话等能力。

量化等级	最低GPU显存
FP16（无量化）	13GB
INT8	10GB
INT4	6GB

ChatGLM2-6B（发布时间：2023-06-25；模型文件大小：12.5GB）https://github.com/THUDM/ChatGLM2-6B

基座模型使用了GLM模型的混合目标函数，在1.4万亿中英文tokens数据集上训练，并做了模型对齐，第二代在各项任务中的提升幅度如下：

评测任务	任务类型	ChatGLM-6B得分	ChatGLM2-6B得分	提升幅度
MMLU	英文语言理解	40.63	47.86	↑ 23%
CEval	中文大语言模型评估	38.9	51.7	↑ 33%
GSM8K	数学（英文版）	4.82	32.37	↑ 571%
BBH	大语言模型的BIG-Bench Hard任务	18.73	33.68	↑ 60%

更长的上下文：在第一代ChatGLM-6B上，模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术，升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此，支持更多轮次的对话，并且官方表示将在后续继续优化上下文长度限制。
更高效的推理：ChatGLM2-6B使用了Multi-Query Attention技术，可以在更低地显存资源下以更快的速度进行推理，推理速度相比第一代提升42%！同时，在INT4量化模型中，6G显存的对话长度由1K提升到了8K！