苹果彰显开放 AI 强大实力:新模型超越 Mistral 及 Hugging Face 产品

在全球对全新 GPT-4o-mini 的强大功能热议不断之际,苹果选择扩充其小型模型家族。就在数小时前,作为数据语言模型项目一部分的苹果研究团队在 Hugging Face 上公布了一系列开放的 DCLM 模型。

其中包含两个主要模型:一个具有 70 亿参数,另一个具有 14 亿参数。它们在基准测试中的表现均相当出色,尤其是较大的模型,它已超越 Mistral-7B,逼近包括 Llama 3 和 Gemma 在内的其他领先开放模型。

苹果 ML 团队的 Vaishaal Shankar 称这些模型为当下“表现最佳”的开源模型。值得一提的是,该项目通过公开模型权重、训练代码及预训练数据集,真正做到了开源。

关于苹果 DCLM 模型,我们知晓多少?

在苹果、华盛顿大学、特拉维夫大学和丰田研究所的多学科研究团队引领下,DataComp 项目可被视为设计高质量数据集以训练 AI 模型的协同努力,特别是在多模态领域。其基本理念为:采用一个标准化框架——固定的模型架构、训练代码、超参数及评估,来开展不同实验,以找出最适合训练高性能模型的数据策划策略。

该项目的工作早就开启,实验让团队发现基于模型的过滤,即机器学习模型自动过滤并选取大数据集中高质量数据,能够成为组建高质量训练集的关键。为证明这一策划技术的有效性,结果数据集 DCLM-Baseline 被用于从头训练新的 DCLM 仅解码转换器英语语言模型,参数分别为 70 亿和 14 亿。

70 亿参数的模型,运用基于 OpenLM 框架的预训练配方,在 2.5 万亿个标记上进行训练,具备 2K 上下文窗口,在 MMLU 上实现了 63.7%的五次测试准确率。据研究人员所述,相较于之前开放数据语言模型类别中的先进模型 MAP-Neo,在基准测试上提升了 6.6 个百分点,同时训练计算量使用减少 40%。

更重要的是,其 MMLU 性能与市场上领先的开放模型(开放权重但封闭数据)极为接近,如 Mistral-7B-v0.3(62.7%)、Llama3 8B(66.2%)、谷歌的 Gemma(64.3%)和微软的 Phi-3(69.9%)。

当研究人员在同一数据集上追加 100B 训练,并运用数据集分解技术将其上下文长度拓展至 8K 时,模型在核心和扩展基准测试(涵盖包括 HellaSwag 和 ARC-E 在内的数十项不同任务的平均值)中的性能进一步提升。然而,MMLU 结果保持不变。

“我们的结果突显了数据集设计在训练语言模型中的重要性,并为进一步研究数据策划提供了起点。”研究人员在详细阐述 DataComp-LM 工作的论文中指出。

强大的小型模型

与 DCLM-7B 类似,较小的 14 亿参数版本模型在与丰田研究所共同训练的 2.6 万亿个标记上也有出色表现,在 MMLU、核心和扩展测试中表现优异。

在五次测试的 MMLU 测试中,其得分 41.9%,远超该类别中的其他模型,包括 Hugging Face 近期发布的 SmolLM。依据基准测试,SmolLM 的 1.7B 版本的 MMLU 得分为 39.97%。同时,Qwen-1.5B 和 Phi-1.5B 分别得分为 37.87%和 35.90%。

当前,较大的模型依据苹果的示例代码许可证提供,较小的模型依照 Apache 2.0 发布,允许商业使用、分发及修改。值得注意的是,HF 库中还有一个 70 亿参数模型的指令调优版本。

还需留意,这只是早期研究,突出了数据策划的有效性。这些模型并非专为苹果设备设计,可能会呈现出某些测试训练数据中的偏差或产生有害回应。

解释

  • 13
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻想多巴胺

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值