Yi: Open Foundation Models by 01.AI
相关链接:arxiv github huggingface
关键字:Foundation Models、Multimodal Models、Language Models、Data Quality、Transformer
摘要
我们介绍了Yi模型系列,这是一系列基于6B和34B预训练语言模型然后扩展到AI对话模型、长语义模型的200K、深度放大模型和视觉语言模型的语言和多模态模型。模型表现出强大多维能力,取得范围广的基准测试如MMLU优异表现,并且我们的精调聊天模型在如AlpacaEval和Chatbot Arena等主要评测平台上实现强烈的人类偏好率。从我们的超级计算基础设施和标准变换器架构构建,我们认为Yi模型的性能主要归因于我们为进一步数据工程而努力的数据质量。对于预训练,我们使用级联数据去重和质量过滤管道来构建3.1万亿个英语和中文语料。对于精调,我们在多次迭代中改善小规模(不足一万)的指令数据集,以保证每一个案例都直接由我们的机器学习工程师验证。对于视觉语言,我们把聊天语言模型和视觉变换器编码器结合,并训练模型以便使视觉表示对齐到语言模型的语义空间。我们进一步通过轻量级的持续预训练扩展上下文长度到200K,并证明出色的大海捞针检索表现。我们也展示了通过持续预训练扩展预训练检查点的深度能够进一步提升性能。我们相信我们目前的结果表明,继续使用严格优化过的数据来放大模型参数将会导致甚至更强的前沿模型。
核心方法
- 数据处理:精心设计的级联数据处理管道,包括启发式规则过滤器、学习过滤器、基于聚类的过滤器和去重。
- 模型架构:改良的经典解码器-仅Transformer架构,并采用分组查询注意力(GQA)、SwiGLU激活和具有调整基频的旋转位置嵌入(RoPE ABF)。
- 细化语言模型数据:精心策划的多轮指令-回应对,由我团队的机器学习工程师直接注释然后经过多次用户反馈迭代改进。
- 基础架构:支持从预训练到细化训练到服务的全栈开发的基础设施。
- 安全性:开发了全栈的负责任的人工智能安全引擎(RAISE),以确保安全的预训练、校准和部署。
实验说明
性能在一系列基准测试上与GPT-3.5相当:
Model | MMLU | BBH | C-Eval | CMMLU | Gaokao | CR | RC | Code | Math |
---|---|---|---|---|---|---|---|---|---|
GPT-4 | - | 83.0 | 86.7 | 69.9 | 71.0 | 72.3 | 89.3 | - | 65.3 |
GPT-3.5 | - | 69.1 | 70.1 | 52.5 | 55.5 | 51.1 | 83.1 | - | 54.8 |
Yi (6B) | 63.2 | 42.8 | 72.0 | 75.5 | 72.2 | 72.2 | 68.7 | 21.1 | 18.6 |
Yi (34B) | 76.3 | 54.3 | 81.4 | 83.7 | 82.8 | 80.7 | 76.5 | 32.1 | 40.8 |
在大多数标准基准测试,如MMLU(基础模型)和LMSys ELO评级(聊天模型)中,Yi 34B通常达到与GPT-3.5相当的分数。模型参数和KV缓存量化后,推理成本也得到控制,可以让更广泛的社区在成本效益设备上部署模型。
结论
Yi模型系列以数据质量为基础,展示了在多个任务上的优异性能,并与GPT-3.5相似的用户偏好水平。在各种知识点挑战、学院考试、数学、编码、阅读理解的评估中,我们针对Yi与主流大型语言模型进行了详细比较。Yi模型为社区提供了与GPT-3.5相当质量但更具成本效益的模型,为研究者提供支持,并使开发者能够构建基于语言模型的代理等AI原生应用。它为模型和数据进一步扩大,以获得更强大前沿模型的方向提供了启示。