无问芯穹用少量数据快速实现LLaMA3中文增强，位列精度第一梯队，Infini-AI已可申请使用

最新推荐文章于 2024-10-18 11:21:51 发布

无问芯穹

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量732

点赞数 10

分类专栏：无穹产品文章标签：人工智能深度学习 agi 科技

本文链接：https://blog.csdn.net/2401_87329534/article/details/142256385

版权

无穹产品专栏收录该内容

10 篇文章 0 订阅

订阅专栏

4月中下旬，无问芯穹Infini-AI大模型服务平台面向企业认证用户开放了LLaMA3试用申请。今天，无问芯穹宣布LLaMA3-8B中文增强模型——LLaMA3-8B-Infini-instruct，已可以登陆Infini-AI(https://www.infini-ai.com/)，获取申请试用链接。

15T 超大数据集规模

中文数据不足5%

此前，DeepMind研究团队于《Training Compute-Optimal Large Language Models》等在先研究中，认为8B模型的最佳训练数据规模可能在0.2T（2千亿）Tokens左右。LLaMA3之前，业界实践的最高训练数据记录，则在3T（3万亿）Tokens左右。根据技术报告，本次Meta LLaMA3的训练在超两万张H100卡组成的计算集群上运行，并在8B模型上消耗了共计130万GPU小时数，数据集规模高达15T（15万亿）Tokens，是目前主流模型训练数据的5倍多。

但这15T 数据中，只有不超过5%的非英语数据。换言之，30多种非英语数据加起来不超过0.75T（7千5百亿）。可想而知，其中中文数据会更少。Meta在技术报告原文中也表示：“并不指望模型在非英语情景下的表现能达到英语水平。”

推理能力强大

少量数据即可快速实现中文增强

LLaMA3在各测试和任务中展现的高性能水平，已引起开源社区的极大关注，被广泛认定为开源大模型里程碑中的重要节点，将会在各种应用场景中发挥作用。对LLaMA3展开中文增强，是中文社区必不可少的工作。

无问芯穹算法团队发现，LLaMA3通过增加大量代码数据增强了模型推理能力。或许能借助LLaMA3强大的逻辑基础水平，仅通过增加少量的中文数据，即快速实现中文能力的增强。

方案选择

我们首先尝试了直接对Meta-Llama-3-8B-Instruct进行中文监督微调（SFT）的方案，但训练后发现中文模型表现与英文原始模型存在较大的差距。推测是由于LLaMA3的中文词表只有4k左右大小，许多中文词汇可能会退化为Unicode编码，仅靠SFT数据不足以激活小词表对中文的表达能力。因此选择了先基于Base模型进行继续预训练，再使用对话数据进行有监督微调的技术路线。

数据准备

使用了10B（1百亿）Tokens中文数据对LLaMA3-8B-Base模型展开了继续训练，不到12小时便完成了继续训练与微调。

数据组成

我们混合了高质量中文数据（百科、书籍等）、互联网通用语料、代码、数学、逻辑推理等多种数据，并在基座模型的继续训练中混入了大量对话及指令数据来激发模型的指令跟随能力。

监督微调

在10B Tokens的继续预训练完成后，使用了高质量对话数据进行SFT，最终获得完整的对话模型。

增强结果

通用领域增强效果