中文对话大模型BELLE全面开源！（附：数据+模型+轻量化）

最新推荐文章于 2025-07-26 08:30:00 发布

转载最新推荐文章于 2025-07-26 08:30:00 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s/_zzmOAWMEfJ5C-8YKWkL-A

文章标签：

#人工智能 #深度学习 #自然语言处理 #神经网络 #python

BELLE项目是针对中文优化的大型语言模型，基于BLOOM和LLAMA，使用ChatGPT生成的数据进行指令微调。项目已开源多个模型Checkpoint及量化版本，旨在促进中文对话模型社区的发展。数据集包含150万中文指令，模型效果在不同任务上有所差异，但总体随着数据量增加而提升。项目持续更新，推动更多研究和应用。

最新项目BELLE（BE Large Language model Engine）基于BLOOM和LLAMA针对中文做了优化，模型调优仅使用由ChatGPT生成的数据，为中文指令提供更好的支持。

开源地址：https://github.com/LianjiaTech/BELLE

该项目目前已经开源了如下内容，并且在持续更新中：

150万中文指令微调数据集
以Bloomz-7b1-mt（70亿参数）为基础，分别在20万，60万，100万，200万数据上进行指令微调后得到的模型Checkpoint。
以LLAMA-7b（70亿参数）为基础，分别在60万，200万数据上进行指令微调后得到的模型Checkpoint。
对以上模型进行量化后的轻量化模型，便于部署、推理。

BELLE模型能力展示

BELLE技术方案介绍

ChatGPT、GPT-4的横空出世，让人们看到了一丝AGI（通用人工智能）的曙光。在可预见的将来，ChatGPT将对各行各业带来革命性的影响。但是这样的技术不应该只被掌握在一家公司手中，因此BELLE项目应运而生了，他们的初衷是为了促进中文对话大模型开源社区的发展。为此，他们在三个方面做了初步的尝试，并已经开源了他们的研究成果。

数据：为了获得大量的指令微调数据，项目团队参考了斯坦福大学的Alpaca项目，并针对中文场景进行了优化，利用ChatGPT生了多样化、高质量的数据，这些数据涵盖了各种应用场景，包括日常对话、知识问答、文本生成等，有助于模型在各种中文场景中的表现。他们已经开源其中的150万数据。
模型：大模型的训练往往具有较高的成本，而一个具备初步的能力的对话模型，将大大降低使用和科研的门槛。为此，他们基于Bloom和LLAMA，训练了出具效果的对话模型，并完全开放了这些模型的参数。
轻量化：为了便于模型的部署和试用，BELLE团队同时开源了对话模型的量化版本。包括8bit, 4bit, 其中4bit版本模型checkpoint大小仅为6.9G，运行仅需8.4G显存。

模型效果比较

以Bloomz-7b1-mt为基础，BELLE团队评估了不同数量的instruction tuning数据，对模型效果的影响。总的来说，提升数据量能持续带来效果的提升，但是在不同类型的任务上表现有所不同。在Extract, Classification, Closed QA, 和Summarization任务上，增加数据能持续带来效果的提升，还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上，几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上，模型效果较差，而且增加数据量已经无法带来效果的提升。