对国内外开源大模型（LLM）较为全面的整理

AI小白熊

于 2024-08-02 10:08:04 发布

阅读量303

点赞数 5

文章标签：人工智能 ai

本文链接：https://blog.csdn.net/2401_85325726/article/details/140865181

版权

CodeFuse-13B —— 代码大语言模型

CodeFuse-13B 是基于 GPT-NeoX 框架训练的 13B 参数代码生成模型，能够处理 4096 个字符的代码序列。该模型在 1000B Token 的代码、中文、英文数据数据集上进行预训练，覆盖超过 40 种编程语言。为了进一步提升生成代码的效果和质量，该模型还在CodeFuse-Evol-instruction-66k 数据集上进行了微调，使得该模型能够生成更加准确、高效、符合要求的代码。在 HumanEval 评测集上 Pass@1 达到 37.1%(采用 BeamSearch 解码，其中 BeamSize=3)。

MiLM-6B —— 小米 AI 大模型

MiLM-6B 是由小米开发的一个大规模预训练语言模型，参数规模为 64 亿。在 C-Eval 和 CMMLU 上均取得同尺寸最好的效果。根据 C-Eval 给出的信息，MiLM-6B 模型在具体各科目成绩上，在 STEM（科学、技术、工程和数学教育）全部 20 个科目中，计量师、物理、化学、生物等多个项目获得了较高的准确率。

Code Llama —— 基于 Llama 2 的 AI 代码生成大模型

Code Llama 是基于 Llama 2 的 AI 代码生成大模型，可根据代码和自然语言提示生成代码和有关代码的自然语言，支持多种主流编程语言，包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。 Code Llama 基于 Llama 2 大语言模型打造，提供了三种模型： - Code Llama - 基础代码模型 - Code Llama - Python - 专门针对 Python 进行优化 - Code Llama - Instruct - 专门用于理解自然语言指令它们具有开放式模型中领先的性能、填充能力、对大型输入上下文的支持以及用于编程任务的零指令跟随能力。所有模型都是基于 16k 标记序列进行训练，并在最多 100k 标记输入上显示出改进。

通义千问-7B —— 基于 Transformer 的大语言模型

通义千问 - 7B（Qwen-7B）是阿里云研发的通义千问大模型系列的 70 亿参数规模的模型。Qwen-7B 是基于 Transformer 的大语言模型，在超大规模的预训练数据上进行训练得到。预训练数据类型多样，覆盖广泛，包括大量网络文本、专业书籍、代码等。同时，在 Qwen-7B 的基础上，使用对齐机制打造了基于大语言模型的 AI 助手 Qwen-7B-Chat。Qwen-7B 系列模型的特点包括： - 大规模高质量预训练数据：使用了超过 2.2 万亿 token 的自建大规模预训练数据集进行语言模型的预训练。数据集包括文本和代码等多种数据类型，覆盖通用领域和专业领域。 - 优秀的模型性能：相比同规模的开源模型，Qwen-7B 在多个评测数据集上具有显著优势，甚至超出 12-13B 等更大规模的模型。评测评估的能力范围包括自然语言理解与生成、数学运算解题、代码生成等。 - 更好地支持多语言：基于更大词表的分词器在分词上更高效，同时它对其他语言表现更加友好。用户可以在 Qwen-7B 的基础上更方便地训练特定语言的 7B 语言模型。 - 8K 的上下文长度：Qwen-7B 及 Qwen-7B-Chat 均能支持 8K 的上下文长度，允许用户输入更长的 prompt。 - 支持插件调用：Qwen-7B-Chat 针对插件调用相关的对齐数据做了特定优化，当前模型能有效调用插件以及升级为 Agent。

ChatGLM2-6B —— 开源双语对话语言模型

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，引入了如下新特性： - 更强大的性能：基于 ChatGLM 初代模型的开发经验，全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。 - 更长的上下文：基于 FlashAttention 技术，将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练，允许更多轮次的对话。但当前版本的 ChatGLM2-6B 对单轮超长文档的理解能力有限，会在后续迭代升级中着重进行优化。 - 更高效的推理：基于 Multi-Query Attention 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。 - 更开放的协议：ChatGLM2-6B 权重对学术研究完全开放，在获得官方的书面许可后，亦允许商业使用。

baichuan-7B —— 开源中英文大模型

baichuan-7B 是开源的大规模预训练模型，基于 Transformer 结构，在大约 1.2 万亿 tokens 上训练的 70 亿参数模型，支持中英双语，上下文窗口长度为 4096。

TigerBot —— 多语言多任务大语言模型

TigerBot 是一个多语言多任务的大规模语言模型 (LLM)。根据 OpenAI InstructGPT 论文在公开 NLP 数据集上的自动评测，TigerBot-7B 达到 OpenAI 同样大小模型的综合表现的 96%。目前已开源： - 模型：TigerBot-7B, TigerBot-7B-base，TigerBot-180B (research version)， - 代码：基本训练和推理代码，包括双卡推理 180B 模型的量化和推理代码， - 数据：预训练 100G，从 2TB 过滤后的数据中经过去噪去重清洗而得；监督微调 1G 或 100 万条数据，按比例涵盖用户指令常见的 10 大类 120 小类任务， - API: chat, plugin, finetune, 让用户能在半小时内无代码的训练和使用专属于自己的大模型和数据， - 领域数据：涵盖金融，法律，百科，广邀大模型应用开发者，一起打造中国的世界级的应用。

YuLan-Chat —— 基于中英文混合指令微调的大语言对话模型

YuLan-Chat 是基于高质量中英文混合指令微调的大语言对话模型。 YuLan-Chat 采用 LLaMA 作为底座，采用精心优化的高质量中英文混合指令进行微调。其中 YuLan-Chat-65B 模型目前能够在中英文相关评测数据集上显著超越已有开源模型效果。团队称后续会继续优化指令微调方法与底座模型，持续更新 YuLan-Chat 模型。

Falcon-40B —— 因果解码器大模型

Falcon-40B 是 400 亿参数的因果解码器模型，它在 RefinedWeb 的 1000B token 上进行训练，并使用精选数据集增强。它在 Huggingface 的 OpenLLM 排行榜上排首位，其性能优于 LLaMA、MPT、RedPajama 和 StableLM 等。 Falcon-40B 使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。 Falcon 从公网上抓取内容构建好 Falcon 的初始预训练数据集后，再使用 CommonCrawl 转储，进行大量过滤（包括删除机器生成的文本和成人内容），并消除重复数据，最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。

华佗GPT —— 开源中文医疗大模型

HuatuoGPT（华佗 GPT）是开源中文医疗大模型，基于医生回复和 ChatGPT 回复，让语言模型成为医生，提供丰富且准确的问诊。 HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据，以使语言模型具备像医生一样的诊断能力和提供有用信息的能力，同时保持对用户流畅的交互和内容的丰富性，对话更加丝滑。 HuatuoGPT 使用了四种不同的数据集，分别如下： - 蒸馏 ChatGPT 指令数据集（Distilled Instructions from ChatGPT）：这个数据集受到 Alpaca 模型创建指令集的方法启发，从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是，本方法还加入了科室和角色信息，根据采样的科室或角色生成符合条件的指令数据集。 - 真实医生指令数据集（Real-world Instructions from Doctors）：这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化，因此本方法通过润色以提高其可读性。 - 蒸馏 ChatGPT 对话数据集（Distilled Conversations from ChatGPT）：这个数据集通过为两个 ChatGPT 模型提供共享的对话背景，让它们分别模仿医生和患者进行对话。 - 真实医生对话数据集（Real-world Conversations with Doctors）：这个数据集来源于真实医生的对话，但对医生的回复使用模型进行了润色。这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。

BLOOMChat —— 可商用多语言聊天 LLM

BLOOMChat 是一个新的、开放的、多语言的聊天 LLM。 SambaNova 和 Together 使用 SambaNova 独特的可重构数据流架构在 SambaNova DataScale 系统上训练了 BLOOMChat；其建立在 BigScience 组织的 BLOOM 之上，并在 OpenChatKit、Dolly 2.0 和 OASST1 的 OIG 上进行了微调。

CPM-Bee —— 中英文双语大语言模型

CPM-Bee 是一个完全开源、允许商用的百亿参数中英文基座模型。它采用 Transformer 自回归架构（auto-regressive），使用万亿级高质量语料进行预训练，拥有强大的基础能力。 CPM-Bee 的特点可以总结如下：开源可商用：OpenBMB 始终秉承 “让大模型飞入千家万户” 的开源精神，CPM-Bee 基座模型将完全开源并且可商用，以推动大模型领域的发展。如需将模型用于商业用途，只需企业实名邮件申请并获得官方授权证书，即可商用使用。中英双语性能优异：CPM-Bee 基座模型在预训练语料上进行了严格的筛选和配比，同时在中英双语上具有亮眼表现，具体可参见评测任务和结果。超大规模高质量语料：CPM-Bee 基座模型在万亿级语料上进行训练，是开源社区内经过语料最多的模型之一。同时，我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。 OpenBMB 大模型系统生态支持：OpenBMB 大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具，CPM-Bee 基座模型将配套所有的工具脚本，高效支持开发者进行进阶使用。强大的对话和工具使用能力：结合 OpenBMB 在指令微调和工具学习的探索，我们在 CPM-Bee 基座模型的基础上进行微调，训练出了具有强大对话和工具使用能力的实例模型，现已开放定向邀请内测，未来会逐步向公众开放。 CPM-Bee 的基座模型可以准确地进行语义理解，高效完成各类基础任务，包括：文字填空、文本生成、翻译、问答、评分预测、文本选择题等等。

MMS —— AI 语音识别大模型

Massively Multilingual Speech (MMS) 是 Meta 开源的 AI 语音识别模型，支持 1107 种语言的语音转文本和文本转语音，以及 4000 多种语言的语言识别。 MMS 项目将支持的语言数量增加了 10-40 倍，具体取决于任务。主要成分是一个新的数据集，该数据集基于对公开宗教文本的阅读，并有效地利用了自我监督学习。

DB-GPT —— 数据库大语言模型

DB-GPT 是一个开源的以数据库为基础的 GPT 实验项目，使用本地化的 GPT 大模型与数据和环境进行交互，无数据泄露风险，100% 私密，100% 安全。 DB-GPT 为所有以数据库为基础的场景，构建了一套完整的私有大模型解决方案。此方案因为支持本地部署，所以不仅仅可以应用于独立私有环境，而且还可以根据业务模块独立部署隔离，让大模型的能力绝对私有、安全、可控。

LaWGPT —— 基于中文法律知识的大语言模型

LaWGPT 是一系列基于中文法律知识的开源大语言模型。该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。

VisualGLM-6B —— 多模态对话语言模型

VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。 VisualGLM-6B 依靠来自于 CogView 数据集的 30M 高质量中文图文对，与 300M 经过筛选的英文图文对进行预训练，中英文权重相同。该训练方式较好地将视觉信息对齐到 ChatGLM 的语义空间；之后的微调阶段，模型在长视觉问答数据上训练，以生成符合人类偏好的答案。

Chinese BERT —— 中文预训练语言模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型 BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3, RBTL3。

PERT —— 基于 BERT 的预训练语言模型

PERT 提出了一种基于乱序语言模型的预训练模型（PERT），在不引入掩码标记 [MASK] 的情况下自监督地学习文本语义信息。 PERT 在部分中英文 NLU 任务上获得性能提升，但也在部分任务上效果较差，请酌情使用。目前提供了中文和英文的 PERT 模型，包含两种模型大小（base、large）。

ChatDoctor —— 医学聊天模型

ChatDoctor 是一个使用医学领域知识在 LLaMA 模型上微调的医学聊天模型。

GPT Neo —— 开源 GPT 模型

GPT Neo 使用 mesh-tensorflow 库实现了 GPT 系列的语言模型，其中包括 GPT-2 和 GPT-3，声称可以扩展到完整的 GPT-3 大小。

GPT4All —— GPT4 平替版本

GPT4All 是基于 LLaMa 的～800k GPT-3.5-Turbo Generations 训练出来的助手式大型语言模型，这个模型接受了大量干净的助手数据的训练，包括代码、故事和对话，可作为 GPT4 的平替。

Chinese-BERT-wwm —— 中文 BERT-wwm 系列模型

Pre-Training with Whole Word Masking for Chinese BERT（中文 BERT-wwm 系列模型）在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，哈工大讯飞联合实验室（HFL）发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型 BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext、RoBERTa-wwm-ext、RoBERTa-wwm-ext-large、RBT3、RBTL3。

LoRA —— 大型语言模型的低秩适应

LoRA 是 Low-Rank Adaptation of Large Language Models 的简写，即大型语言模型的低秩适应。它冻结了预训练模型的权重，并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中，大大减少了下游任务的可训练参数数量。与使用 Adam 微调的 GPT-3 175B 相比，LoRA 可以减少 10,000 倍的可训练参数数量和 3 倍的 GPU 内存需求。LoRA 在 RoBERTa、DeBERTa、GPT-2 和 GPT-3 上的模型质量表现与微调相当或更好，尽管可训练参数更少，训练吞吐量更高，而且与适配器不同，没有额外的推理延迟。使用 RoBERTa (Liu et al., 2019) base and large 和 DeBERTa (He et al., 2020) XXL 1.5B 在 GLUE 基准上获得了与完全微调相当或优于完全微调的结果，同时只训练和存储了一小部分参数。

GLM —— 用于自然语言理解和生成的通用预训练框架

GLM (General Language Model) 是清华大学推出的一种使用自回归填空目标进行预训练的通用语言模型，可以针对各种自然语言理解和生成任务进行微调。 GLM 通过添加 2D 位置编码并允许以任意顺序预测跨度来改进空白填充预训练，从而在 NLU 任务上获得优于 BERT 和 T5 的性能。同时，GLM 可以通过改变空白的数量和长度对不同类型的任务进行预训练。在横跨 NLU、条件和无条件生成的广泛任务上，GLM 在给定相同的模型大小和数据的情况下优于 BERT、T5 和 GPT，并从单一的预训练模型中获得了 1.25 倍 BERT Large 参数的最佳性能，表明其对不同下游任务的通用性。 ChatGLM-6B 就是在 GLM 框架的基础上为中文 QA 和对话进行了优化。

CINO —— 少数民族语言预训练模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Model, PLM）已成为重要的基础技术，在多语言的研究中，预训练模型的使用也愈加普遍。为了促进中国少数民族语言信息处理的研究与发展，哈工大讯飞联合实验室（HFL）发布少数民族语言预训练模型 CINO (Chinese mINOrity PLM)。本项工作的主要贡献： CINO (Chinese mINOrity PLM) 基于多语言预训练模型 XLM-R，在多种国内少数民族语言语料上进行了二次预训练。该模型提供了藏语、蒙语（回鹘体）、维吾尔语、哈萨克语（阿拉伯体）、朝鲜语、壮语、粤语等少数民族语言与方言的理解能力。为了便于评价包括 CINO 在内的各个多语言预训练模型性能，我们构建了基于维基百科的少数民族语言分类任务数据集 Wiki-Chinese-Minority（WCM）。具体见少数民族语言分类数据集。通过实验证明，CINO 在 Wiki-Chinese-Minority（WCM）以及其他少数民族语言数据集：藏语新闻分类 Tibetan News Classification Corpus (TNCC) 、朝鲜语新闻分类 KLUE-TC (YNAT) 上获得了最好的效果。相关结果详见实验结果。该模型涵盖： Chinese，中文（zh） Tibetan，藏语（bo） Mongolian (Uighur form)，蒙语（mn） Uyghur，维吾尔语（ug） Kazakh (Arabic form)，哈萨克语（kk） Korean，朝鲜语（ko） Zhuang，壮语 Cantonese，粤语（yue）

VLE —— 视觉-语言多模态预训练模型

VLE (Vision-Language Encoder) 是一种基于预训练文本和图像编码器的图像 - 文本多模态理解模型，可应用于如视觉问答、图像 - 文本检索等多模态判别任务。特别地，在对语言理解和推理能力有更强要求的视觉常识推理（VCR）任务中，VLE 取得了公开模型中的最佳效果。在线演示地址：
https://huggingface.co/spaces/hfl/VQA_VLE_LLM VLE 模型采用双流结构，与 METER 模型结构类似，由两个单模态编码器（图像编码器和文本编码器）和一个跨模态融合模块构成。VLE 与 METER 的结构上的差异在于： VLE 使用 DeBERTa-v3 作为文本编码器，其性能优于 METER 中使用的 RoBERTa-base。在 VLE-large 中，跨模态融合模块的隐层维度增加至 1024，以增加模型的容量。在精调阶段，VLE 引入了额外的 token 类型向量表示。

MiniRBT —— 中文小型预训练模型

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，哈工大讯飞联合实验室（HFL）基于自主研发的知识蒸馏工具 TextBrewer，结合了全词掩码（Whole Word Masking）技术和知识蒸馏（Knowledge Distillation）技术推出中文小型预训练模型 MiniRBT。 MiniRBT 采用了如下技术：全词掩码技术：全词掩码技术（Whole Word Masking）是预训练阶段的训练样本生成策略。简单来说，原有基于 WordPiece 的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被 mask（替换成 [MASK]；保持原词汇；随机替换成另外一个词）。而在 WWM 中，如果一个完整的词的部分 WordPiece 子词被 mask，则同属该词的其他部分也会被 mask。更详细的说明及样例请参考：Chinese-BERT-wwm，本工作中使用了哈工大 LTP 作为分词工具。两段式蒸馏：相较于教师模型直接蒸馏到学生模型的传统方法，该项目采用中间模型辅助教师模型到学生模型蒸馏的两段式蒸馏方法，即教师模型先蒸馏到助教模型（Teacher Assistant），学生模型通过对助教模型蒸馏得到，以此提升学生模型在下游任务的表现。并在下文中贴出了下游任务上两段式蒸馏与一段式蒸馏的实验对比，结果表明两段式蒸馏能取得相比一段式蒸馏更优的效果。构建窄而深的学生模型。相较于宽而浅的网络结构，如 TinyBERT 结构（4 层，隐层维数 312），开发团队构建了窄而深的网络结构作为学生模型 MiniRBT（6 层，隐层维数 256 和 288），实验表明窄而深的结构下游任务表现更优异。

LLaVA —— 端到端训练的大型多模态模型

LLaVA 是一个面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。代表了一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。早期实验表明，LLaVA 展示了优秀的多模型聊天能力，有时在看不见的图像 / 指令上表现出多模型 GPT-4 的行为，与 GPT-4 相比，在合成的多模态指令跟随数据集中产生了 85.1% 的相对得分。当在 Science QA 上进行微调时，LLaVA 和 GPT-4 的协同作用达到了 92.53% 的新的最先进的准确率。LLaVA 团队公开了 GPT-4 生成的视觉指令调整数据、以及其模型和代码库。

mPLUG-Owl —— 多模态大语言模型

阿里达摩院提出的多模态 GPT 的模型：mPLUG-Owl，基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容，还可以理解视觉信息，并且具备优秀的跨模态对齐能力。论文：

https://arxiv.org/abs/2304.14178 DEMO：https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

PaLM 2 —— 谷歌下一代大型语言模型

PaLM 2 是谷歌推出的下一代大型语言模型。擅长高级推理任务，包括代码和数学、分类和问答、翻译和多语言能力以及自然语言生成。谷歌声称 PaLM 2 是一种最先进的语言模型，要优于其之前所有的 LLM，包括 PaLM。目前，PaLM 2 已被用于 Med-PaLM 2 和 Sec-PaLM，并为谷歌的生成人工智能功能和工具（如 Bard 和 PaLM API）提供支持。

OpenLLaMA LLaMA —— 大语言模型的开源复现版本

OpenLLaMA 是 Meta AI 的 LLaMA 大语言模型的开源复现版本，采用宽松许可证。仓库包含经过训练的 2000 亿标记的 7B OpenLLaMA 模型的公共预览版，并提供了预训练的 OpenLLaMA 模型的 PyTorch 和 Jax 权重，以及评估结果和与原始 LLaMA 模型的比较。

YaLM 100B —— 千亿参数预训练语言模型

YaLM 100B 是一个类似 GPT 的神经网络，用于生成和处理文本。该模型利用了 1000 亿个参数，在 800 个 A100 显卡和 1.7 TB 在线文本、书籍以及海量其他英文和俄文资源的集群上训练该模型花了 65 天时间。

WizardLM —— 基于 LLaMA 的微调大语言模型

WizardLM 是一个经过微调的 7B LLaMA 模型。它通过大量具有不同难度的指令跟随对话进行微调。这个模型的新颖之处在于使用了 LLM 来自动生成训练数据。 WizardLM 模型使用一种名为 Evol-Instruct（是一种使用 LLM 代人类自主批生成各种难度等级和技术范围的开放指令，以提高 LLM 能力的新方法）的新方法，通过 70k 个计算机生成的指令进行训练，该方法生成具有不同难度级别的指令。

Web LLM —— 将大语言模型聊天直接带到 Web 浏览器上

Web LLM 是一个可将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目。一切都在浏览器内运行，无需服务器支持，并使用 WebGPU 加速。这开辟了许多有趣的机会，可以为每个人构建 AI 助手，并在享受 GPU 加速的同时实现隐私。

MLC LLM —— 本地大语言模型

MLC LLM 是一种通用解决方案，它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外，MLC LLM 还提供了一个高效的框架，供使用者根据需求进一步优化模型性能。MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型，而无需服务器支持，并通过手机和笔记本电脑上的消费级 GPU 进行加速。

SantaCoder —— 轻量级 AI 编程模型

SantaCoder 是一个语言模型，该模型拥有 11 亿个参数，可以用于 Python、Java 和 JavaScript 这几种编程语言的代码生成和补全建议。根据官方提供的信息，训练 SantaCoder 的基础是 The Stack（v1.1）数据集，SantaCoder 虽然规模相对较小，只有 11 亿个参数，在参数的绝对数量上低于 InCoder（67 亿）或 CodeGen-multi（27 亿），但 SantaCoder 的表现则是要远好于这些大型多语言模型。

StarCoder —— 代码生成语言模型

StarCoder（150 亿参数）是 Hugging Face 联合 ServiceNow 发布的免费大型语言模型，该模型经过训练主要用途是可以生成代码，目的是为了对抗 GitHub Copilot 和亚马逊 CodeWhisperer 等基于 AI 的编程工具。

StableLM —— Stability AI 开发的语言模型

StableLM 项目仓库包含 Stability AI 正在进行的 StableLM 系列语言模型开发，目前 Stability AI 发布了初始的 StableLM-alpha 模型集，具有 30 亿和 70 亿参数。150 亿和 300 亿参数的模型正在开发中。 StableLM 模型可以生成文本和代码，并为一系列下游应用提供支持。它们展示了小而高效的模型如何在适当的训练下提供高性能。

RedPajama —— 大语言模型

RedPajama 项目旨在创建一套领先的全开源大语言模型。目前，该项目已完成了第一步，成功复制了 LLaMA 训练数据集超过 1.2 万亿个数据 token。该项目由 Together、Ontocord.ai、ETH DS3Lab、斯坦福大学 CRFM、Hazy Research 和 MILA 魁北克 AI 研究所联合开发。 RedPajama 包含三个主要组成部分：预训练数据、基础模型和指令调优数据与模型。

Vicuna —— 达到 ChatGPT/Bard 90% 水平的聊天机器人

Vicuna 模型对 LLaMA 进行了微调，由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣地亚哥分校和 MBZUAI 的学术团队进行微调训练而成，有两种大小可供选择：7B 和 13B。 Vicuna-13B 与 Stanford Alpaca 等其他开源模型相比展示了具有竞争力的性能。以 GPT-4 为评判标准的初步评估显示，Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量，同时在 90% 以上的情况下超过了 LLaMA 和 Stanford Alpaca 等其他模型的表现。训练 Vicuna-13B 成本约为 300 美元。训练和服务代码，以及在线演示都是公开的，可用于非商业用途。

CodeGeeX —— 多语言代码生成模型

CodeGeeX 是一个具有 130 亿参数的多编程语言代码生成预训练模型。CodeGeeX 采用华为 MindSpore 框架实现，在鹏城实验室 “鹏城云脑 II” 中的 192 个节点（共 1536 个国产昇腾 910 AI 处理器）上训练而成。 CodeGeeX 有以下特点：高精度代码生成：支持生成 Python、C++、Java、JavaScript 和 Go 等多种主流编程语言的代码，在 HumanEval-X 代码生成任务上取得 47%~60% 求解率，较其他开源基线模型有更佳的平均性能。跨语言代码翻译：支持代码片段在不同编程语言间进行自动翻译转换，翻译结果正确率高，在 HumanEval-X 代码翻译任务上超越了其它基线模型。自动编程插件：CodeGeeX 插件现已上架 VSCode 插件市场（完全免费），用户可以通过其强大的少样本生成能力，自定义代码生成风格和能力，更好辅助代码编写。模型跨平台开源：所有代码和模型权重开源开放，用作研究用途。CodeGeeX 同时支持昇腾和英伟达平台，可在单张昇腾 910 或英伟达 V100/A100 上实现推理。

Chinese-Vicuna —— 基于 LLaMA 的中文大语言模型

Chinese-Vicuna 是一个中文低资源的 LLaMA+Lora 方案。项目包括： finetune 模型的代码推理的代码仅使用 CPU 推理的代码 (使用 C++) 下载 / 转换 / 量化 Facebook llama.ckpt 的工具其他应用

BELLE —— 开源中文对话大模型

BELLE: Be Everyone’s Large Language model Engine（开源中文对话大模型）本项目目标是促进中文对话大模型开源社区的发展，愿景做能帮到每一个人的 LLM Engine。现阶段本项目基于一些开源预训练大语言模型（如 BLOOM），针对中文做了优化，模型调优仅使用由 ChatGPT 生产的数据（不包含任何其他数据）。

BBT-2 —— 通用大语言模型

BBT-2 是包含 120 亿参数的通用大语言模型，在 BBT-2 的基础上训练出了代码，金融，文生图等专业模型。基于 BBT-2 的系列模型包括： BBT-2-12B-Text：120 亿参数的中文基础模型 BBT-2.5-13B-Text: 130 亿参数的中文 + 英文双语基础模型 BBT-2-12B-TC-001-SFT 经过指令微调的代码模型，可以进行对话 BBT-2-12B-TF-001 在 120 亿模型上训练的金融模型，用于解决金融领域任务 BBT-2-12B-Fig：文生图模型 BBT-2-12B-Science 科学论文模型

本草 —— 基于中文医学知识的 LLaMA 微调模型

本草【原名：华驼 (HuaTuo)】是基于中文医学知识的 LLaMA 微调模型。此项目开源了经过中文医学指令精调 / 指令微调 (Instruct-tuning) 的 LLaMA-7B 模型。通过医学知识图谱和 GPT3.5 API 构建了中文医学指令数据集，并在此基础上对 LLaMA 进行了指令微调，提高了 LLaMA 在医疗领域的问答效果。

ChatGLM-6B —— 开源双语对话语言模型

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型，但大大降低了推理成本，提升了效率，并且已经能生成相当符合人类偏好的回答。

伶荔Linly —— 大规模中文语言模型

相比已有的中文开源模型，伶荔模型具有以下优势：在 32*A100 GPU 上训练了不同量级和功能的中文模型，对模型充分训练并提供强大的 baseline。据知，33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。公开所有训练数据、代码、参数细节以及实验结果，确保项目的可复现性，用户可以选择合适的资源直接用于自己的流程中。项目具有高兼容性和易用性，提供可用于 CUDA 和 CPU 的量化推理框架，并支持 Huggingface 格式。目前公开可用的模型有： Linly-Chinese-LLaMA：中文基础模型，基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力，现已开放 7B、13B 和 33B 量级，65B 正在训练中。 Linly-ChatFlow：中文对话模型，在 400 万指令数据集合上对中文基础模型指令精调，现已开放 7B、13B 对话模型。 Linly-ChatFlow-int4 ：ChatFlow 4-bit 量化版本，用于在 CPU 上部署模型推理。进行中的项目： Linly-Chinese-BLOOM：基于 BLOOM 中文增量训练的中文基础模型，包含 7B 和 175B 模型量级，可用于商业场景。

MOSS —— 对话大语言模型

MOSS 是一个支持中英双语和多种插件的开源对话语言模型， moss-moon 系列模型具有 160 亿参数，在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行，在 INT4/8 精度下可在单张 3090 显卡运行。 MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

白泽Baize —— 使用 LoRA 训练的大语言模型

白泽是使用 LoRA 训练的开源聊天模型，它改进了开源大型语言模型 LLaMA，通过使用新生成的聊天语料库对 LLaMA 进行微调，该模型在单个 GPU 上运行，使其可供更广泛的研究人员使用。白泽目前包括四种英语模型：白泽 -7B、13B 和 30B（通用对话模型），以及一个垂直领域的白泽 - 医疗模型，供研究 / 非商业用途使用，并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。

悟道 —— 双语多模态大语言模型

“悟道” 是双语多模态预训练模型，规模达到 1.75 万亿参数。项目现有 7 个开源模型成果。图文类 1、CogView 参数量为 40 亿，模型可实现文本生成图像，经过微调后可实现国画、油画、水彩画、轮廓画等图像生成。目前在公认 MS COCO 文生图任务上取得了超过 OpenAI DALL・E 的成绩，获得世界第一。 2、BriVL (Bridging Vision and Language Model) 是首个中文通用图文多模态大规模预训练模型。BriVL 模型在图文检索任务上有着优异的效果，超过了同期其他常见的多模态预训练模型（例如 UNITER、CLIP）。文本类 1、GLM 是以英文为核心的预训练语言模型系列，基于新的预训练范式实现单一模型在语言理解和生成任务方面取得了最佳结果，并且超过了在相同数据量进行训练的常见预训练模型（例如 BERT，RoBERTa 和 T5），目前已开源 1.1 亿、3.35 亿、4.10 亿、5.15 亿、100 亿参数规模的模型。 2、CPM 系列模型是兼顾理解与生成能力的预训练语言模型系列，涵盖中文、中英双语多类模型，目前已开源 26 亿、110 亿和 1980 亿参数规模的模型。 3、Transformer-XL 是以中文为核心的预训练语言生成模型，参数规模为 29 亿，目前可支持包括文章生成、智能作诗、评论 / 摘要生成等主流 NLG 任务。 4、EVA 是一个开放领域的中文对话预训练模型，是目前最大的汉语对话模型，参数量达到 28 亿，并且在包括不同领域 14 亿汉语的悟道对话数据集（WDC）上进行预训练。 5、Lawformer 是世界首创法律领域长文本中文预训练模型，参数规模达到 1 亿。蛋白质类 1、ProtTrans 是国内最大的蛋白质预训练模型，参数总量达到 30 亿。

PanGu-Dialog —— 对话生成大模型

鹏程・盘古对话生成大模型 (PanGu-Dialog)。 PanGu-Dialog 是以大数据和大模型为显著特征的大规模开放域对话生成模型，充分利用大规模预训练语言模型的知识和语言能力，构建可控、可靠可信、有智慧的自然人机对话模型。主要特性如下：首次提出对话智慧度以探索对话模型的逻辑推理、数据计算、联想、创作等方面的能力。构建了覆盖领域最广 (据我们所知) 的开放域交互式对话评估数据集 PGCED，12 个领域，并在知识性、安全性、智慧程度等方面制作了针对性的评测数据。基于预训练 + 持续微调的学习策略融合大规模普通文本和多种对话数据训练而成，充分利用训练语言模型语言能力和知识，高效构建强大的对话模型。在各项指标上达到了中文纯模型生成式对话 SOTA 水平，在知识性和信息量方面优势明显，但安全性、可靠、可信、可控、智慧等方面的提升并不明显。目前生成式对话仍处于较低水平，与人类对话能力存在明显的差距，后续将在现有基础上针对不同的维度不断优化迭代，不断进步。

鹏程·盘古α —— 中文预训练语言模型

「鹏程・盘古 α」是业界首个 2000 亿参数以中文为核心的预训练生成语言模型，目前开源了两个版本：鹏程・盘古 α 和鹏程・盘古 α 增强版，并支持 NPU 和 GPU 两个版本，支持丰富的场景应用，在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出，具备较强的少样本学习的能力。基于盘古系列大模型提供大模型应用落地技术帮助用户高效的落地超大预训练模型到实际场景。主要有如下几个核心模块：数据集：从开源开放数据集、common crawl 数据集、电子书等收集近 80TB 原始语料，构建了约 1.1TB 的高质量中文语料数据集、53 种语种高质量单、双语数据集 2TB。基础模块：提供预训练模型库，支持常用的中文预训练模型，包括鹏程・盘古 α、鹏程・盘古 α 增强版等。应用层：支持常见的 NLP 应用比如多语言翻译、开放域对话等，支持预训练模型落地工具，包括模型压缩、框架移植、可持续学习，助力大模型快速落地。

Chinese-LLaMA-Alpaca —— 中文 LLaMA & Alpaca 大模型

Chinese-LLaMA-Alpaca 包含中文 LLaMA 模型和经过指令微调的 Alpaca 大型模型。这些模型在原始 LLaMA 的基础上，扩展了中文词汇表并使用中文数据进行二次预训练，从而进一步提高了对中文基本语义理解的能力。同时，中文 Alpaca 模型还进一步利用中文指令数据进行微调，明显提高了模型对指令理解和执行的能力。

Stanford Alpaca —— 指令调优的 LLaMA 模型

Stanford Alpaca（斯坦福 Alpaca）是一个指令调优的 LLaMA 模型，从 Meta 的大语言模型 LLaMA 7B 微调而来。 Stanford Alpaca 让 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循（instruction-following）样本，以此作为 Alpaca 的训练数据。研究团队已将训练数据、生成训练数据的代码和超参数开源，后续还将发布模型权重和训练代码。

Lit-LLaMA —— 基于 nanoGPT 的语言模型

Lit-LLaMA 是一个基于 nanoGPT 的 LLaMA 语言模型的实现，支持量化、LoRA 微调、预训练。主要特点：单一文件实现，没有样板代码；在消费者硬件上或大规模运行；在数值上等同于原始模型

Dolly —— 低成本大语言模型

Dolly 是一个低成本的 LLM，Dolly 采用 EleutherAI 现有的 60 亿参数的开源模型，并对其进行细微的修改，以激发指令跟随能力。尽管模型小得多，只有 60 亿个参数，以及较小的数据集和训练时间（ChatGPT 的参数是 1750 亿个），但 Dolly 仍然表现出了 ChatGPT 所展示的同样的 “神奇的人类互动能力”。

ChatYuan —— 对话语言大模型

ChatYuan 是一个支持中英双语的功能型对话语言大模型。ChatYuan-large-v2 使用了和 v1 版本相同的技术方案，在微调数据、人类反馈强化学习、思维链等方面进行了优化。 ChatYuan-large-v2 是 ChatYuan 系列中以轻量化实现高质量效果的模型之一，用户可以在消费级显卡、 PC 甚至手机上进行推理（INT4 最低只需 400M ）。

RWKV-LM —— 线性 Transformer 模型

RWKV 是结合了 RNN 和 Transformer 的语言模型，适合长文本，运行速度较快，拟合性能较好，占用显存较少，训练用时较少。 RWKV 整体结构依然采用 Transformer Block 的思路，相较于原始 Transformer Block 的结构，RWKV 将 self-attention 替换为 Position Encoding 和 TimeMix，将 FFN 替换为 ChannelMix。其余部分与 Transfomer 一致。

GPT-J —— 自然语言处理 AI 模型

GPT-J 是一个基于 GPT-3，由 60 亿个参数组成的自然语言处理 AI 模型。该模型在一个 800GB 的开源文本数据集上进行训练，并且能够与类似规模的 GPT-3 模型相媲美。该模型通过利用 Google Cloud 的 v3-256 TPU 以及 EleutherAI 的 The Pile 数据集进行训练，历时大约五周时间。GPT-J 在标准 NLP 基准工作负载上实现了与 OpenAI 报告的 67 亿参数版本的 GPT-3 类似的准确性。模型代码、预训练的权重文件、Colab 文档和一个演示网页都包含在 EleutherAI 的开源项目中。

OPT-175B —— Meta 开源的大语言模型

OPT-175B 是 Meta 开源的大语言模型，拥有超过 1750 亿个参数 —— 和 GPT-3 相当。相比 GPT-3，OPT-175B 的优势在于它完全免费。 Meta 还公布了代码库、开发过程日志、数据、研究论文和其他与 OPT-175B 相关的信息。尽管 OPT-175B 是免费的，但 Meta 也给出了一些限制。为了防止误用和 “保持完整性”，OPT-175B 只允许在非商业用途下使用。也就是说，OPT-175B 的多数应用场景还是在科研上。

Cerebras-GPT —— 自然语言处理领域大模型

Cerebras GPT 是由 Cerebras 公司开源的自然语言处理领域的预训练大模型，其模型参数规模最小 1.11 亿，最大 130 亿，共 7 个模型。与业界的模型相比，Cerebras-GPT 几乎是各个方面完全公开，没有任何限制。不管是模型架构，还是预训练结果都是公开的。

BLOOM —— 自然语言处理大模型

Bloom 是用于自然语言处理的大语言模型，包含 1760 亿个参数，支持 46 种自然语言（包括中文）和 13 种编程语言，可以用来回答问题、翻译文本、从文件中提取信息片段，还能像 GitHub Copilot 一样用于生成代码。 BLOOM 模型的最大优势是它的易获取性，任何个人或机构都可以从 Hugging Face 免费获得 1760 亿个参数的完整模型。用户有多个语种可选，然后将需求输入到 BLOOM 中，任务类型包括撰写食谱或诗歌、翻译或总结文本，甚至还有代码编程。人工智能开发者可以在该模型的基础上构建他们自己的应用程序。

LLaMA —— Meta 大语言模型

LLaMA 语言模型全称为 “Large Language Model Meta AI”，是 Meta 的全新大型语言模型（LLM），这是一个模型系列，根据参数规模进行了划分（分为 70 亿、130 亿、330 亿和 650 亿参数不等）。其中 LaMA-13B（130 亿参数的模型）尽管模型参数相比 OpenAI 的 GPT-3（1750 亿参数）要少了十几倍，但在性能上反而可以超过 GPT-3 模型。更小的模型也意味着开发者可以在 PC 甚至是智能手机等设备上本地运行类 ChatGPT 这样的 AI 助手，无需依赖数据中心这样的大规模设施。

GPT-2 —— 基于 Transformer 的大型语言模型

GPT-2 是一种基于 transformer 的大型语言模型，具有 15 亿个参数，在 800 万网页数据集上进行训练。GPT-2 能够翻译文本、回答问题、总结段落，并生成文本输出。虽然其输出内容有时与人类相似，但在生成长段落时输出内容可能会变得重复或无意义。GPT-2 是一个通用学习器，没有经过专门训练来执行任何特定的任务，并且是作为 OpenAI 2018 GPT 模型的“直接扩展”而创建的，其参数数量和训练数据集的大小均增加了十倍。

AI小白熊

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
对国内外开源大模型（LLM）较为全面的整理

CodeFuse-13B —— 代码大语言模型CodeFuse-13B 是基于 GPT-NeoX 框架训练的 13B 参数代码生成模型，能够处理 4096 个字符的代码序列。该模型在 1000B Token 的代码、中文、英文数据数据集上进行预训练，覆盖超过 40 种编程语言。为了进一步提升生成代码的效果和质量，该模型还在CodeFuse-Evol-instruction-66k 数据集上进行了微调，使得该模型能够生成更加准确、高效、符合要求的代码。在 HumanEval 评测集上 Pass@1 达到
复制链接

扫一扫