中文对话大模型BELLE全面开源!(附:数据+模型+轻量化)

BELLE项目是针对中文优化的大型语言模型,基于BLOOM和LLAMA,使用ChatGPT生成的数据进行指令微调。项目已开源多个模型Checkpoint及量化版本,旨在促进中文对话模型社区的发展。数据集包含150万中文指令,模型效果在不同任务上有所差异,但总体随着数据量增加而提升。项目持续更新,推动更多研究和应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最新项目BELLE(BE Large Language model Engine)基于BLOOM和LLAMA针对中文做了优化,模型调优仅使用由ChatGPT生成的数据,为中文指令提供更好的支持。

开源地址:https://github.com/LianjiaTech/BELLE

该项目目前已经开源了如下内容,并且在持续更新中:

  1. 150万中文指令微调数据集

  2. 以Bloomz-7b1-mt(70亿参数)为基础,分别在20万,60万,100万,200万数据上进行指令微调后得到的模型Checkpoint。

  3. 以LLAMA-7b(70亿参数)为基础,分别在60万,200万数据上进行指令微调后得到的模型Checkpoint。

  4. 对以上模型进行量化后的轻量化模型,便于部署、推理。

BELLE模型能力展示

BELLE技术方案介绍

ChatGPT、GPT-4的横空出世,让人们看到了一丝AGI(通用人工智能)的曙光。在可预见的将来,ChatGPT将对各行各业带来革命性的影响。但是这样的技术不应该只被掌握在一家公司手中,因此BELLE项目应运而生了,他们的初衷是为了促进中文对话大模型开源社区的发展。为此,他们在三个方面做了初步的尝试,并已经开源了他们的研究成果。

  1. 数据:为了获得大量的指令微调数据,项目团队参考了斯坦福大学的Alpaca项目,并针对中文场景进行了优化,利用ChatGPT生了多样化、高质量的数据,这些数据涵盖了各种应用场景,包括日常对话、知识问答、文本生成等,有助于模型在各种中文场景中的表现。他们已经开源其中的150万数据。

  2. 模型:大模型的训练往往具有较高的成本,而一个具备初步的能力的对话模型,将大大降低使用和科研的门槛。为此,他们基于Bloom和LLAMA,训练了出具效果的对话模型,并完全开放了这些模型的参数。

  3. 轻量化:为了便于模型的部署和试用,BELLE团队同时开源了对话模型的量化版本。包括8bit, 4bit, 其中4bit版本模型checkpoint大小仅为6.9G,运行仅需8.4G显存。

模型效果比较

以Bloomz-7b1-mt为基础,BELLE团队评估了不同数量的instruction tuning数据,对模型效果的影响。总的来说,提升数据量能持续带来效果的提升,但是在不同类型的任务上表现有所不同。在Extract, Classification, Closed QA, 和Summarization任务上,增加数据能持续带来效果的提升,还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上,几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上,模型效果较差,而且增加数据量已经无法带来效果的提升。

详见论文:Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases。

总结

可以说BELLE的出现,大大促进了中文开源对话模型的发展,基于他们开源的数据和模型,更多的人可以尝试这些模型,更多的研究工作可以更快捷的展开。令人更加惊喜的是,该开源项目仍在持续更新,将来会有更多的内容被开放出来,欢迎大家持续的跟踪。

# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
<think>好的,用户需要汇总当前大语言模型及其实现引擎的信息,并生成一个表格总结。首先,我需要确定用户的需求是什么,他们可能是在做研究或者项目,需要比较不同的大语言模型及其背后的技术架构和应用场景。 接下来,我需要回忆现有的主流大语言模型,比如GPT系列、BERT、T5、PaLM等,以及它们的实现引擎,比如TensorFlow、PyTorch、JAX等。同时,还要考虑这些模型的特点、发布时间、参数量、应用领域等。 然后,用户提供的参考引用中提到了几个关键点:大规模语言模型的应用领域,如自然语言处理、语音识别等;中文词表扩展的模型如ChatGLM-6B、BELLE;多模态模型;以及相关的库如pandas、openai等。需要确保表格中包含这些信息,并正确引用来源。 另外,用户要求使用中文回答,并且按照格式要求,行内公式用$...$,独立公式用$$...$$。虽然当前问题不涉及数学公式,但需要保持整体结构清晰,分点回答,并在末尾添加相关问题。 可能需要验证每个模型的信息准确性,比如GPT-3的参数量是1750亿,发布年份是2020年,实现引擎是PyTorch和TensorFlow。同时,注意引用对应的参考文献,比如引用[1]提到大规模语言模型的应用,引用[2]提到中文扩展模型,引用[3]提到BERT和GPT,引用[4]提到的库如OpenAI。 最后,生成相关的问题,比如模型比较、引擎选择、中文模型优化等,确保问题与用户需求相关,帮助他们进一步探索。</think>以下为当前主流大语言模型及其实现引擎的总结表格,包含模型特征、技术架构和应用场景: | 模型名称 | 实现引擎 | 参数量 | 主要特征 | 应用场景 | 发布年份 | 引用来源 | |----------------|---------------|-------------|--------------------------------------------|----------------------------------|----------|----------| | GPT-4 | PyTorch | 1.8万亿 | 多模态支持,上下文理解优化 | 对话系统、代码生成、图像描述 | 2023 | [^1][^3] | | BERT | TensorFlow | 1.1亿 | 双向Transformer,掩码语言建模 | 文本分类、问答系统 | 2018 | [^3] | | T5 | JAX/TensorFlow| 110亿 | 文本到文本统一框架 | 翻译、摘要生成 | 2020 | | | PaLM | JAX | 5400亿 | 路径并行训练优化 | 科学计算、多语言处理 | 2022 | [^1] | | LLaMA | PyTorch | 7B-65B | 开源轻量化设计 | 学术研究、嵌入式设备 | 2023 | [^2] | | ChatGLM-6B | PyTorch | 62亿 | 中英双语优化,量化部署 | 中文对话、本地化应用 | 2022 | | | BLOOM | Megatron-DeepSpeed | 1760亿 | 多语言覆盖,开源协作开发 | 跨语言翻译、知识推理 | 2022 | | | ERNIE 3.0 | PaddlePaddle | 260亿 | 知识增强预训练 | 搜索引擎优化、行业知识库 | 2021 | [^3] | ### 关键技术说明 1. **引擎选择**:PyTorch因动态计算图优势成为主流(如$f(x)=Wx+b$的灵活实现),而JAX在超大规模模型训练中展现高效性(如$H(\theta)=\frac{1}{N}\sum_{i=1}^N \mathcal{L}(y_i,f_\theta(x_i))$的分布式计算) 2. **中文优化**:通过BELLE算法进行中文词表扩展时,需保持$loss = -\sum_{t=1}^T \log P(w_t|w_{<t})$的损失函数稳定性 3. **多模态扩展**:使用跨模态注意力机制实现图文对齐(如$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V$)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值