开源大语言模型完整列表

最新推荐文章于 2024-06-18 16:39:55 发布

沧海之巅

最新推荐文章于 2024-06-18 16:39:55 发布

阅读量1.1k

点赞数

分类专栏：大语言模型 GPT AI 文章标签：开源语言模型人工智能

沧海之巅

本文链接：https://blog.csdn.net/linjie_830914/article/details/131020335

版权

本文整理了国内外多个开源大语言模型，包括中文和多语言模型，如ChatGLM-6B、MOSS、伶荔、Chinese-Vicuna、鹏程·盘古等，涵盖了双语对话、指令调优、多模态应用等多个领域，部分模型可在消费级硬件上运行，支持本地部署和多任务应用。

摘要由CSDN通过智能技术生成

开源大语言模型完整列表

Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。

所谓"语言模型"，就是只用来处理语言文字（或者符号体系）的 AI 模型，发现其中的规律，可以根据提示 (prompt)，自动生成符合这些规律的内容。

LLM 通常基于神经网络模型，使用大规模的语料库进行训练，比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数，能够处理各种自然语言处理任务，如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

本文对国内外公司、科研机构等组织开源的 LLM 进行了全面的整理。

开源中文 LLM

ChatGLM-6B —— 双语对话语言模型

ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型，并针对中文进行了优化。该模型基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。

ChatGLM-6B 使用了和 ChatGLM 相同的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 虽然规模不及千亿模型，但大大降低了推理成本，提升了效率，并且已经能生成相当符合人类偏好的回答。

MOSS —— 支持中英双语的对话大语言模型

MOSS 是一个支持中英双语和多种插件的开源对话语言模型， moss-moon 系列模型具有 160 亿参数，在 FP16 精度下可在单张 A100/A800 或两张 3090 显卡运行，在 INT4/8 精度下可在单张 3090 显卡运行。

MOSS 基座语言模型在约七千亿中英文以及代码单词上预训练得到，后续经过对话指令微调、插件增强学习和人类偏好训练具备多轮对话能力及使用多种插件的能力。

伶荔 (Linly) —— 大规模中文语言模型

相比已有的中文开源模型，伶荔模型具有以下优势：

在 32*A100 GPU 上训练了不同量级和功能的中文模型，对模型充分训练并提供强大的 baseline。据知，33B 的 Linly-Chinese-LLAMA 是目前最大的中文 LLaMA 模型。
公开所有训练数据、代码、参数细节以及实验结果，确保项目的可复现性，用户可以选择合适的资源直接用于自己的流程中。
项目具有高兼容性和易用性，提供可用于 CUDA 和 CPU 的量化推理框架，并支持 Huggingface 格式。

目前公开可用的模型有：

Linly-Chinese-LLaMA：中文基础模型，基于 LLaMA 在高质量中文语料上增量训练强化中文语言能力，现已开放 7B、13B 和 33B 量级，65B 正在训练中。
Linly-ChatFlow：中文对话模型，在 400 万指令数据集合上对中文基础模型指令精调，现已开放 7B、13B 对话模型。
Linly-ChatFlow-int4 ：ChatFlow 4-bit 量化版本，用于在 CPU 上部署模型推理。

进行中的项目：

Linly-Chinese-BLOOM：基于 BLOOM 中文增量训练的中文基础模型，包含 7B 和 175B 模型量级，可用于商业场景。

Chinese-Vicuna —— 基于 LLaMA 的中文大语言模型

Chinese-Vicuna 是一个中文低资源的 LLaMA+Lora 方案。

项目包括

finetune 模型的代码
推理的代码
仅使用 CPU 推理的代码 (使用 C++)
下载 / 转换 / 量化 Facebook llama.ckpt 的工具
其他应用

沧海之巅

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
开源大语言模型完整列表

Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。所谓"语言模型"，就是只用来处理语言文字（或者符号体系）的 AI 模型，发现其中的规律，可以根据提示 (prompt)，自动生成符合这些规律的内容。LLM 通常基于神经网络模型，使用大规模的语料库进行训练，比如使用互联网上的海量文本数据。
复制链接

扫一扫