在全球对全新 GPT-4o-mini 的强大功能热议不断之际,苹果选择扩充其小型模型家族。就在数小时前,作为数据语言模型项目一部分的苹果研究团队在 Hugging Face 上公布了一系列开放的 DCLM 模型。
其中包含两个主要模型:一个具有 70 亿参数,另一个具有 14 亿参数。它们在基准测试中的表现均相当出色,尤其是较大的模型,它已超越 Mistral-7B,逼近包括 Llama 3 和 Gemma 在内的其他领先开放模型。
苹果 ML 团队的 Vaishaal Shankar 称这些模型为当下“表现最佳”的开源模型。值得一提的是,该项目通过公开模型权重、训练代码及预训练数据集,真正做到了开源。
关于苹果 DCLM 模型,我们知晓多少?
在苹果、华盛顿大学、特拉维夫大学和丰田研究所的多学科研究团队引领下,DataComp 项目可被视为设计高质量数据集以训练 AI 模型的协同努力,特别是在多模态领域。其基本理念为:采用一个标准化框架——固定的模型架构、训练代码、超参数及评估,来开展不同实验,以找出最适合训练高性能模型的数据策划策略。
该项目的工作早就开启,实验让团队发现基于模型的过滤,即机器学习模型自动过滤并选取大数据集中高质量数据,能够成为组建高质量训练集的关键。为证明这一策划技术的有效性,结果数据集 DCLM-Baseline 被用于从头训练新的 DCLM 仅解码转换器英语语言模型,参数分别为 70 亿和 14 亿。
70 亿参数的模型,运用基于 OpenLM 框架的预训练配方,在 2.5 万亿个标记上进行训练,具备 2K 上下文窗口,在 MMLU 上实现了 63.7%的五次测试准确率。据研究人员所述,相较于之前开放数据语言模型类别中的先进模型 MAP-Neo,在基准测试上提升了 6.6 个百分点,同时训练计算量使用减少 40%。
更重要的是,其 MMLU 性能与市场上领先的开放模型(开放权重但封闭数据)极为接近,如 Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、谷歌的 Gemma(64.3%)和微软的 Phi-3(69.9%)。
当研究人员在同一数据集上追加 100B 训练,并运用数据集分解技术将其上下文长度拓展至 8K 时,模型在核心和扩展基准测试(涵盖包括 HellaSwag 和 ARC-E 在内的数十项不同任务的平均值)中的性能进一步提升。然而,MMLU 结果保持不变。
“我们的结果突显了数据集设计在训练语言模型中的重要性,并为进一步研究数据策划提供了起点。”研究人员在详细阐述 DataComp-LM 工作的论文中指出。
强大的小型模型
与 DCLM-7B 类似,较小的 14 亿参数版本模型在与丰田研究所共同训练的 2.6 万亿个标记上也有出色表现,在 MMLU、核心和扩展测试中表现优异。
在五次测试的 MMLU 测试中,其得分 41.9%,远超该类别中的其他模型,包括 Hugging Face 近期发布的 SmolLM。依据基准测试,SmolLM 的 1.7B 版本的 MMLU 得分为 39.97%。同时,Qwen-1.5B 和 Phi-1.5B 分别得分为 37.87%和 35.90%。
当前,较大的模型依据苹果的示例代码许可证提供,较小的模型依照 Apache 2.0 发布,允许商业使用、分发及修改。值得注意的是,HF 库中还有一个 70 亿参数模型的指令调优版本。
还需留意,这只是早期研究,突出了数据策划的有效性。这些模型并非专为苹果设备设计,可能会呈现出某些测试训练数据中的偏差或产生有害回应。
解释:
-
“数据语言模型”:是指用于处理和生成自然语言的数学模型,旨在理解和生成人类语言。25 款开源人工智能工具,助您将开发时间减半。
-
“多模态”:指结合多种不同的数据形式,如文本、图像、音频等,进行综合分析和处理,包括怎么用AI制作表情包。
-
“基准测试”:是一种评估计算机系统或软件性能的标准方法和过程。
-
“MMLU”:可能是特定领域中用于衡量模型性能的一种指标或测试标准。
-
“Hugging Face”:OpenAI、Nvidia 和 Hugging Face 推出小型 AI 模型,引领行业变革