AI大模型【基础 01】智能AI开源模型与大模型接口整理（8个开源模型+7个大模型接口）_ai模型接口(1)

2401_84265650

已于 2024-04-28 03:14:51 修改

阅读量2k

点赞数 32

分类专栏：程序员文章标签：人工智能开源

于 2024-04-28 03:14:50 首次发布

本文链接：https://blog.csdn.net/2401_84265650/article/details/138263653

版权

程序员专栏收录该内容

186 篇文章 1 订阅

订阅专栏

基座模型使用了GLM模型的混合目标函数，在1.4万亿中英文tokens数据集上训练，并做了模型对齐，第二代在各项任务中的提升幅度如下：

评测任务	任务类型	ChatGLM-6B得分	ChatGLM2-6B得分	提升幅度
MMLU	英文语言理解	40.63	47.86	↑ 23%
CEval	中文大语言模型评估	38.9	51.7	↑ 33%
GSM8K	数学（英文版）	4.82	32.37	↑ 571%
BBH	大语言模型的BIG-Bench Hard任务	18.73	33.68	↑ 60%

更长的上下文：在第一代ChatGLM-6B上，模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术，升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此，支持更多轮次的对话，并且官方表示将在后续继续优化上下文长度限制。
更高效的推理：ChatGLM2-6B使用了Multi-Query Attention技术，可以在更低地显存资源下以更快的速度进行推理，推理速度相比第一代提升42%！同时，在INT4量化模型中，6G显存的对话长度由1K提升到了8K！

量化等级	编码 2048 长度的最小显存	生成 8192 长度的最小显存
FP16 / BF16	13.1 GB	12.8 GB
INT8	8.2 GB	8.1 GB
INT4	5.5 GB	5.1 GB

2.2 Baichuan

Baichuan Intelligent Technology是搜狗创始人王小川创办的一家人工智能企业。

Baichuan-7B（发布时间：2023-09-06；模型文件大小：14GB）https://github.com/baichuan-inc/Baichuan-7B

是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。在标准的中文和英文 benchmark（C-Eval/MMLU）上均取得同尺寸最好的效果。

Baichuan-13B-Chat（发布时间：2023-07-08；模型文件大小：26.6GB）https://github.com/baichuan-inc/Baichuan-13B

Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型，在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有预训练 (Baichuan-13B-Base) 和对齐 (Baichuan-13B-Chat) 两个版本。Baichuan-13B 有如下几个特点：

更大尺寸、更多数据：Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到 130 亿，并且在高质量的语料上训练了 1.4 万亿 tokens，超过 LLaMA-13B 40%，是当前开源 13B 尺寸下训练数据量最多的模型。支持中英双语，使用 ALiBi 位置编码，上下文窗口长度为 4096。
同时开源预训练和对齐模型：预训练模型是适用开发者的『基座』，而广大普通用户对有对话功能的对齐模型具有更强的需求。因此本次开源我们同时发布了对齐模型（Baichuan-13B-Chat），具有很强的对话能力，开箱即用，几行代码即可简单的部署。
更高效的推理：为了支持更广大用户的使用，我们本次同时开源了 int8 和 int4 的量化版本，相对非量化版本在几乎没有效果损失的情况下大大降低了部署的机器资源门槛，可以部署在如 Nvidia 3090 这样的消费级显卡上。
开源免费可商用：Baichuan-13B 不仅对学术研究完全开放，开发者也仅需邮件申请并获得官方商用许可后，即可以免费商用。

量化等级	最低GPU显存
bf16 / fp16	26.0GB
int8	15.8GB
int4	9.7GB

注意：CPU部署需要60GB内存。

Baichuan2（发布时间：2023-12-29；模型文件大小：7B-15GB 13B-27.8GB）https://github.com/baichuan-inc/Baichuan2

Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。在多个权威的中文、英文和多语言的通用、领域 benchmark 上取得同尺寸最佳的效果。包含有 7B、13B 的 Base 和 Chat 版本，并提供了 Chat 版本的 4bits 量化。
量化前后显存占用对比 (GPU Mem in GB)

量化等级	Baichuan2-7B	Baichuan2-13B
bf16 / fp16	15.3	27.5
8bits	8.0	16.1
4bits	5.1	8.6

2.3 Qwen

https://github.com/QwenLM/Qwen
阿里通义千问发布了的Qwen-7B（发布时间：2023-08-03；模型文件大小：15.4GB）和Qwen-14B（发布时间：2023-09-24；模型文件大小：28.32GB），是互联网厂商中目前最受欢迎的开源大模型，它的优势是在于阿里的强大生态体系以及应用。Qwen系列模型相比同规模模型均实现了效果的显著提升。评测的数据集包括MMLU、C-Eval、 GSM8K、 MATH、HumanEval、MBPP、BBH等数据集，考察的能力包括自然语言理解、知识、数学计算和推理、代码生成、逻辑推理等。Qwen-72B（发布时间：2023-11-30；模型文件大小：140GB）在所有任务上均超越了LLaMA2-70B的性能，同时在10项任务中的7项任务中超越GPT-3.5。

模型	开源日期	最大上下文长度	System Prompt强化	预训练token数	微调（Q-Lora）最小GPU用量	生成2048个token的最小显存占用	工具调用
Qwen-1.8B	23.11.30	32K	✅	2.2T	5.8GB	2.9GB	✅
Qwen-7B	23.08.03	32K	❎	2.4T	11.5GB	8.2GB	✅
Qwen-14B	23.09.25	8K	❎	3.0T	18.7GB	13.0GB	✅
Qwen-72B	23.11.30	32K	✅	3.0T	61.4GB	48.9GB	✅

2.4 Yi

https://github.com/01-ai/Yi
零一万物（01.AI）https://www.lingyiwanwu.com 是由李开复在2023年3月份创办的一家大模型创业企业，并在2023年6月份正式开始运营。在2023年11月6日，零一万物开源了4个大语言模型，包括Yi-6B（模型文件大小：12.12GB）、Yi-6B-200K、Yi-34B（模型文件大小：62GB）、Yi-34B-200k。模型在MMLU的评分上登顶，最高支持200K超长上下文输入，获得了社区的广泛关注。

Model	Minimum VRAM	Recommended GPU Example
Yi-6B-Chat	15 GB	RTX 3090 / RTX 4090 / A10 / A30
Yi-6B-Chat-4bits	4 GB	RTX 3060 / RTX 4060
Yi-6B-Chat-8bits	8 GB	RTX 3070 / RTX 4060
Yi-34B-Chat	72 GB	4 x RTX 4090 / A800 (80GB)
Yi-34B-Chat-4bits	20 GB	RTX 3090 / RTX 4090 / A10 / A30 / A100 (40GB)
Yi-34B-Chat-8bits	38 GB	2 x RTX 3090 / 2 x RTX 4090 / A800 (40GB)

2.5 XVERSE

元象 XVERSE 于2021年初在深圳成立，是AI驱动的3D内容生产与消费一站式平台，开创了高品质、零门槛、一站式的全新元宇宙体验，助力娱乐、营销、社交、电商等各行业3D化，迈向每个人自由“定义你的世界”愿景。公司创始人姚星是腾讯公司前副总裁、国家科技部新一代人工智能战略咨询委员会成员、腾讯AI Lab和腾讯RoboticsX Lab两大实验室创始人。

XVERSE-13B（发布时间：2023-08-06；模型文件大小：27.52GB）https://github.com/xverse-ai/XVERSE-13B

模型结构：XVERSE-13B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 8K 的上下文长度（Context Length），为同尺寸模型中最长，能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
训练数据：构建了 3.2 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
分词：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,534 的分词器，能够同时支持多语言，而无需额外扩展词表。
训练框架：自主研发多项关键技术，包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等，让训练效率更高，模型稳定性强，在千卡集群上的峰值算力利用率可达到 58.5%，位居业界前列。
下表对比了不同量化等级下模型的显存占用以及 MMLU 准确率：

模型	精度	显存占用（GB）	MMLU 准确率
XVERSE-13B-Chat	BF16 / FP16	28.2	60.2
XVERSE-13B-Chat	INT8	16.8	60.3
XVERSE-13B-Chat	INT4	10.9	55.0

XVERSE-65B（发布时间：2023-11-05；模型文件大小：132.89GB）https://github.com/xverse-ai/XVERSE-65B

模型结构：XVERSE-65B 使用主流 Decoder-only 的标准 Transformer 网络结构，支持 16K 的上下文长度（Context Length），能满足更长的多轮对话、知识问答与摘要等需求，模型应用场景更广泛。
训练数据：构建了 2.6 万亿 token 的高质量、多样化的数据对模型进行充分训练，包含中、英、俄、西等 40 多种语言，通过精细化设置不同类型数据的采样比例，使得中英两种语言表现优异，也能兼顾其他语言效果。
分词：基于 BPE（Byte-Pair Encoding）算法，使用上百 GB 语料训练了一个词表大小为 100,534 的分词器，能够同时支持多语言，而无需额外扩展词表。
训练框架：训练中采用 FlashAttention2 加速计算，3D 并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线和 16k 上下文窗口产生的过高气泡率，在千卡集群的峰值算力利用率达到业界前列。同时通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至 98.6%。
下表列出了在 XVERSE-65B 上进行推理和微调所需要的硬件资源：

	类型	方法	内存	GPU
XVERSE-65B	训练	LoRA with ZeRO-3	1500GB	8*A800 80G
XVERSE-65B	推理	BF16/FP16	500GB	2*A800 80G

2.6 MOSS

https://github.com/OpenLMLab/MOSS
MOSS是复旦大学邱锡鹏教授开源的一个大语言模型，支持中英双语和多种插件的开源对话，moss-moon系列模型具有160亿参数，在FP16精度下可在单张A100/A800或两张3090显卡运行，在INT4/8精度下可在单张3090显卡运行。MOSS基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。
下表提供了一个batch size=1时本地部署MOSS进行推理所需的显存大小。量化模型暂时不支持模型并行。

量化等级	加载模型	完成一轮对话（估计值）	达到最大对话长度2048
FP16	31GB	42GB	81GB
Int8	16GB	24GB	46GB
Int4	7.8GB	12GB	26GB

2.7 ChatRWKV

RWKV-4-Raven（更新日期：2023-08-17；模型文件大小：13.77GB）https://github.com/BlinkDL/RWKV-LM

Receptance Weighted Key Value（RWKV）是pengbo提出的一个新的语言模型架构，它使用了线性的注意力机制，把Transformer的高效并行训练与RNN的高效推理相结合，使得模型在训练期间可以并行，并在推理的时候保持恒定的计算和内存复杂度。RWKV已经训练了多个百亿参数的模型，特别是RWKV World模型支持世界所有语言的生成+对话+任务+代码，功能十分全面。此外还有很多开发者基于RWKV的微调模型。
硬件需求官方未公示。

2.8 GPT4All

https://gpt4all.io/index.html
Nomic AI Team 从 Alpaca 获得灵感，使用 GPT-3.5-Turbo OpenAI API 收集了大约 800,000 个提示-响应对，创建了 430,000 个助手式提示和生成训练对，包括代码、对话和叙述。80 万对大约是羊驼的 16 倍。该模型最好的部分是它可以在 CPU 上运行，不需要 GPU。与 Alpaca 一样，它也是一个开源软件，可以帮助个人进行进一步的研究，而无需花费在商业解决方案上。
模型文件大小：0.04 GB~8.37GB
CPU用量：1GB~16GB

3.大模型接口整理

3.1 百度千帆大模型

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/hlqnms5rn
token计算器 https://console.bce.baidu.com/tools/#/tokenizer
文心一言（ernie-bot）定价， ERNIE-Bot-turbo-0922是0.008元/千tokens， ERNIE-Bot是0.012元/千tokens， ERNIE-Bot 4.0 输入输出都是是0.12元/千tokens。

3.2 阿里模型服务灵积

https://dashscope.aliyun.com/

名称	计费单元	计费单价	免费额度
通义千问	千tokens	qwen-turbo: 0.008元/千tokens	qwen-turbo: 开通即获赠200万 tokens 限时免费额度
通义千问	千tokens	qwen-plus: 0.02元/千tokens	qwen-plus: 开通即获赠100万 tokens 限时免费额度
通义千问	千tokens	qwen-max， qwen-max-longcontext: 限时免费开放	qwen-max， qwen-max-longcontext: 限时免费开放

3.3 腾讯混元大模型

https://cloud.tencent.com/document/product/1729/97731

免费额度

产品名	免费额度
腾讯混元大模型标准版	开通腾讯混元大模型服务即获赠累计10万 token 的免费调用额度，有效期12个月；以资源包的形式发放到您的腾讯云账号中，优先扣除。
腾讯混元大模型高级版
腾讯混元-Embedding	开通腾讯混元大模型服务即获赠累计100万 token 的免费调用额度，有效期12个月；以资源包的形式发放到您的腾讯云账号中，优先扣除。

产品价格（在免费额度用完后，按如下价格进行计费）：

产品名	单位	刊例价
腾讯混元大模型标准版	每 1000 token	0.01元
腾讯混元大模型高级版	每 1000 token	0.10元
腾讯混元-Embedding	每 1000 token	0.0007元

学习路线：

这个方向初期比较容易入门一些，掌握一些基本技术，拿起各种现成的工具就可以开黑了。不过，要想从脚本小子变成黑客大神，这个方向越往后，需要学习和掌握的东西就会越来越多以下是网络渗透需要学习的内容：
在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以点击这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84265650

关注

32
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
AI大模型【基础 01】智能AI开源模型与大模型接口整理（8个开源模型+7个大模型接口）_ai模型接口(1)

更长的上下文：在第一代ChatGLM-6B上，模型的最高上下文长度是2K。而第二代的ChatGLM2-6B的基座模型使用了FlashAttention技术，升级到32K。而据此微调的对话模型ChatGLM2-6B则可以在8K长度上下文条件下自由流畅进行对话。因此，支持更多轮次的对话，并且官方表示将在后续继续优化上下文长度限制。更高效的推理：ChatGLM2-6B使用了Multi-Query Attention技术，可以在更低地显存资源下以更快的速度进行推理，推理速度相比第一代提升42%！
复制链接

扫一扫