中科院开源多语言大模型Bayling【百聆】：性能媲美GPT-3.5

最新推荐文章于 2025-04-08 09:25:56 发布

梦坠凡尘(AICV与前沿)

最新推荐文章于 2025-04-08 09:25:56 发布

阅读量1k

点赞数

分类专栏：深度学习计算机视觉文章标签： gpt-3 多模态大模型人工智能

本文链接：https://blog.csdn.net/c2250645962/article/details/131650055

版权

深度学习同时被 2 个专栏收录

74 篇文章

订阅专栏

计算机视觉

48 篇文章

订阅专栏

欢迎关注公众号 - 【AICV与前沿】，一起学习最新技术吧

开源地址：https://github.com/ictnlp/BayLing
文章：https://arxiv.org/pdf/2306.10968.pdf

写在前面

大型语言模型(llm)在语言理解和生成方面表现出了非凡的能力。从基础llm到后续llm，指令调整在使llm与人类偏好保持一致方面起着至关重要的作用。

然而，现有的llm通常专注于英语，导致非英语语言的表现较差。为了提高非英语语言的性能，需要为基础llm收集特定语言的训练数据，并构建特定语言的指令进行指令调优，这两者都是繁重的工作。为了最大限度地减少人工工作量，我们建议通过交互式翻译任务将语言生成和指令遵循的能力从英语转移到其他语言。

我们利用LLaMA作为基础LLM，自动构建交互式翻译指令来指导调优，开发了指令跟随LLM BayLing。广泛的评估表明，尽管使用了相当小的参数尺寸，只有130亿，但百灵实现了与gpt -3.5 turbo相当的性能。翻译任务实验结果表明，与GPT-4自动评估相比，BayLing的单轮翻译能力达到95%，与gpt -3.5 turbo人工评估相比，交互式翻译能力达到96%。为了评估一般任务的性能，我们创建了一个多回合指令测试集BayLing-80。在BayLing-80上的实验结果表明，与gpt -3.5 turbo相比，BayLing的性能提高了89%。在中国高考和英语SAT的知识评估中也表现出色，在众多遵循教学的llm中仅次于gpt -3.5 turbo。

测评媲美GPT3.5

为了进行人工评价，首先选择了60个句子，其中包括30个汉语句子和30个英语句子作为源句子进行翻译。然后，邀请了5位英语专业的注释者，与BayLing-13B、BayLing-7B、ChatGPT17、vicana - 13b和ChatGLM-6B这5个系统进行了4次交互，对这60个翻译句子进行了4次交互。系统标识是隐藏的，并且是随机排列的，以确保注释者不知道他们正在与之交互的系统。在互动过程中，要求注释者一半用中文，另一半用英语，以保证教学语言的多样性。此外，我们在60个案例中设计了五个不同的互动类别:词汇，语法，风格，建议和创作(即每个类别由12个案例组成)，当面对不同类型的需求时，能够分析系统的性能。

测评发现百聆的交互翻译能力与其他开源大模型相比具有明显优势，13B 参数量的百聆在这一任务上的性能甚至能与 175B 参数量的 ChatGPT 相媲美。
在这里插入图片描述