苹果彰显开放 AI 强大实力：新模型超越 Mistral 及 Hugging Face 产品

最新推荐文章于 2024-07-23 10:46:44 发布

幻想多巴胺

最新推荐文章于 2024-07-23 10:46:44 发布

阅读量856

点赞数 13

分类专栏：人工智能技术文章标签：人工智能

本文链接：https://blog.csdn.net/hongfu951/article/details/140607446

版权

技术同时被 2 个专栏收录

32 篇文章 0 订阅

订阅专栏

人工智能

13 篇文章 0 订阅

订阅专栏

在全球对全新 GPT-4o-mini 的强大功能热议不断之际，苹果选择扩充其小型模型家族。就在数小时前，作为数据语言模型项目一部分的苹果研究团队在 Hugging Face 上公布了一系列开放的 DCLM 模型。

其中包含两个主要模型：一个具有 70 亿参数，另一个具有 14 亿参数。它们在基准测试中的表现均相当出色，尤其是较大的模型，它已超越 Mistral-7B，逼近包括 Llama 3 和 Gemma 在内的其他领先开放模型。

苹果 ML 团队的 Vaishaal Shankar 称这些模型为当下“表现最佳”的开源模型。值得一提的是，该项目通过公开模型权重、训练代码及预训练数据集，真正做到了开源。

关于苹果 DCLM 模型，我们知晓多少？

在苹果、华盛顿大学、特拉维夫大学和丰田研究所的多学科研究团队引领下，DataComp 项目可被视为设计高质量数据集以训练 AI 模型的协同努力，特别是在多模态领域。其基本理念为：采用一个标准化框架——固定的模型架构、训练代码、超参数及评估，来开展不同实验，以找出最适合训练高性能模型的数据策划策略。

该项目的工作早就开启，实验让团队发现基于模型的过滤，即机器学习模型自动过滤并选取大数据集中高质量数据，能够成为组建高质量训练集的关键。为证明这一策划技术的有效性，结果数据集 DCLM-Baseline 被用于从头训练新的 DCLM 仅解码转换器英语语言模型，参数分别为 70 亿和 14 亿。

70 亿参数的模型，运用基于 OpenLM 框架的预训练配方，在 2.5 万亿个标记上进行训练，具备 2K 上下文窗口，在 MMLU 上实现了 63.7%的五次测试准确率。据研究人员所述，相较于之前开放数据语言模型类别中的先进模型 MAP-Neo，在基准测试上提升了 6.6 个百分点，同时训练计算量使用减少 40%。

更重要的是，其 MMLU 性能与市场上领先的开放模型（开放权重但封闭数据）极为接近，如 Mistral-7B-v0.3（62.7%）、Llama3 8B（66.2%）、谷歌的 Gemma（64.3%）和微软的 Phi-3（69.9%）。

当研究人员在同一数据集上追加 100B 训练，并运用数据集分解技术将其上下文长度拓展至 8K 时，模型在核心和扩展基准测试（涵盖包括 HellaSwag 和 ARC-E 在内的数十项不同任务的平均值）中的性能进一步提升。然而，MMLU 结果保持不变。

“我们的结果突显了数据集设计在训练语言模型中的重要性，并为进一步研究数据策划提供了起点。”研究人员在详细阐述 DataComp-LM 工作的论文中指出。

强大的小型模型

与 DCLM-7B 类似，较小的 14 亿参数版本模型在与丰田研究所共同训练的 2.6 万亿个标记上也有出色表现，在 MMLU、核心和扩展测试中表现优异。

在五次测试的 MMLU 测试中，其得分 41.9%，远超该类别中的其他模型，包括 Hugging Face 近期发布的 SmolLM。依据基准测试，SmolLM 的 1.7B 版本的 MMLU 得分为 39.97%。同时，Qwen-1.5B 和 Phi-1.5B 分别得分为 37.87%和 35.90%。

当前，较大的模型依据苹果的示例代码许可证提供，较小的模型依照 Apache 2.0 发布，允许商业使用、分发及修改。值得注意的是，HF 库中还有一个 70 亿参数模型的指令调优版本。

还需留意，这只是早期研究，突出了数据策划的有效性。这些模型并非专为苹果设备设计，可能会呈现出某些测试训练数据中的偏差或产生有害回应。

解释：

“数据语言模型”：是指用于处理和生成自然语言的数学模型，旨在理解和生成人类语言。25 款开源人工智能工具，助您将开发时间减半。
“多模态”：指结合多种不同的数据形式，如文本、图像、音频等，进行综合分析和处理,包括怎么用AI制作表情包。
“基准测试”：是一种评估计算机系统或软件性能的标准方法和过程。
“MMLU”：可能是特定领域中用于衡量模型性能的一种指标或测试标准。
“Hugging Face”:OpenAI、Nvidia 和 Hugging Face 推出小型 AI 模型，引领行业变革

幻想多巴胺

关注

13
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
苹果彰显开放 AI 强大实力：新模型超越 Mistral 及 Hugging Face 产品

在全球对全新 GPT-4o-mini 的强大功能热议不断之际，苹果选择扩充其小型模型家族。就在数小时前，作为数据语言模型项目一部分的苹果研究团队在 Hugging Face 上公布了一系列开放的 DCLM 模型。
复制链接

扫一扫