最新开源!更擅长推理的LLaMA大模型,支持中文

本文介绍了开源项目 BiLLa,这是一款基于 LLaMA 的双语模型,专注于增强中文理解和推理能力。经过多阶段训练,BiLLa 在中文语言建模和推理任务上表现出色,且提供了模型的 Github 和 HuggingFace 链接。然而,模型未经 RLHF 训练,多轮对话能力可能有限。
摘要由CSDN通过智能技术生成

256ddad992d72bbe1db98a76cd13cfe5.gif

©PaperWeekly 原创 · 作者 | 李忠利

研究方向 | 自然语言处理

跟大家介绍一下自己最近训练的 LLaMA 模型——BiLLa: A Bilingual LLaMA with Enhanced Reasoning Ability.

Github 地址: 

https://github.com/Neutralzz/BiLLa 

HuggingFace 模型: 

https://huggingface.co/Neutralzz/BiLLa-7B-LLM(语言模型 BiLLa-7B-LLM) 

https://huggingface.co/Neutralzz/BiLLa-7B-SFT(指令微调模型 BiLLa-7B-SFT) 

注:因 LLaMa 的使用限制,权重下载后不能直接使用,需通过脚本 [1] 转换

BiLLa 是开源的推理能力增强的中英双语 LLaMA 模型。模型的主要特性有: 

  • 较大提升 LLaMA 的中文理解能力,并尽可能减少对原始 LLaMA 英文能力的损伤; 

  • 训练过程增加较多的任务型数据,利用 ChatGPT 生成解析,强化模型理解任务求解逻辑;

  • 全量参数更新,追求更好的生成效果。

因个人精力有限,我未能将 BiLLa 与当前主流的开源大模型进行充分的对比评测。以下是经过有限的评测分析得出的结论: 

  • BiLLa-7B-LLM 中英语言建模能力显著优于 Chinese-LLaMA-7B [2];

  • BiLLa-7B-SFT 中文推理能力显著优于 BELLE-LLaMA-Ext-7B [3] 等模型;

  • 由 GPT4 打分,BiLLa-7B-SFT 在英文指令上得分显著高于 ChatGLM-6B [4],中文得分持平,但解题与代码得分更高。 

0d2fe2cb9c7582674e52951328736501.png

模型训练

该模型以原始 LLaMa 模型为基础,进行了如下三个阶段的训练。

  • 第一阶段:扩充中文词表,使用中文预训练语料 Wudao [5]、英文预训练语料 PILE [6]、翻译语料 WMT [7] 的中英数据进行二次预训练。 

  • 第二阶段:训练数据在第一阶段基础上增加任务型数据,训练过程中两部分数据保持 1:1 的比例混合。任务型数据均为 NLP 各任务的主流开源数据,包含有数学解题、阅读理解、开放域问答、摘要、代码生成等,利用 ChatGPT API 为数据标签生成解析,用于训练提升模型对任务求解逻辑的理解。 

  • 第三阶段:保留第二阶段任务型数据,并转化为对话格式,增加其他指令数据(如 Dolly

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值