发现新一代多语言高品质Phi-3.5 SLMs

寒冰屋

于 2024-08-26 22:48:53 发布

阅读量62

点赞数

分类专栏：人工智能文章标签： Phi-3.5 SLMs

原文链接：https://mp.weixin.qq.com/s?__biz=MzAwNTMxMzg1MA==&mid=2654099966&idx=6&sn=4bc8fe48aef691aa2a108628fe16b290&chksm=81c9492f4c4eaf8bf1ae0c4310099c5ec4bae3bb47bcd059a95b70738a73e4a4ed45188eb24c&scene=126&sessionid=1724680462#rd

版权

人工智能专栏收录该内容

564 篇文章 57 订阅

订阅专栏

原文：Discover the New Multi-Lingual, High-Quality Phi-3.5 SLMs

本文为原文的中文翻译。

Phi-3模型系列是微软小型语言模型（SLM）家族中的最新产品。它们被设计为高能力、高效成本，在语言、推理、编程和数学等多个基准测试中，性能优于相似大小甚至更大规模的模型。Phi-3模型的推出丰富了Azure客户可选择的高质量模型，为他们构建生成式人工智能应用提供了更多实际选择。自2024年4月推出以来，我们从客户和社区成员那里收到了大量关于改善Phi-3模型的宝贵反馈。今天，我们荣幸地宣布推出Phi-3.5-mini、Phi-3.5-vision以及Phi家族的新成员——Phi-3.5-MoE，一个混合专家（Mixture-of-Experts，简称MoE）模型。Phi-3.5-mini增强了多语言支持，具有128K的上下文长度。Phi-3.5-vision提高了多帧图像的理解和推理能力，在单图像基准测试上提升了性能。而拥有16个专家和66亿活跃参数的Phi-3.5-MoE，在保持了Phi模型功效的同时，提供了高性能、低延迟、多语言支持以及稳健的安全措施，优于更大规模的模型。

Phi-3.5-MoE：专家混合模型

Phi-3.5-MoE是Phi模型家族的最新成员。它由16个专家组成，每个专家包含38亿个参数。总模型规模为420亿个参数，在激活两个专家时使用了66亿个参数。这个MoE模型在质量和性能上都超过了规模相似的密集模型。它支持超过20种语言。与Phi-3系列的其他模型一样，该MoE模型采用了一种健壮的安全后训练策略，使用了开源和专有的合成指令及偏好数据集的混合。这个后训练过程结合了有监督微调（SFT）和直接偏好优化（DPO），同时利用了人工标注和合成数据集。这些数据集专注于有益性和无害性，以及多个安全类别。Phi-3.5-MoE还支持高达128K的上下文长度，使其能够处理许多长上下文任务。
Phi-3.5-MoE模型仅用66亿个活跃参数就达到了与更大模型相似的语言理解和数学能力水平。此外，该模型在推理能力上甚至超过了更大的模型。该模型为各种任务的微调提供了良好的能力。表3突显了Phi-3.5-MoE在多语言MMLU、MEGA以及多语言MMLU-pro数据集上的多语言能力。总的来说，我们发现即使只有66亿个活跃参数，该模型在多语言任务上的竞争力与其他拥有更多活跃参数的模型相比毫不逊色。

Phi-3.5-mini

Phi-3.5-mini模型已经使用多语言合成数据和高质量筛选过的数据进行了进一步的预训练。随后，进行了一系列的后训练步骤，包括有监督的微调（SFT）、近端策略优化（PPO）和直接偏好优化（DPO）。这些过程使用了人标数据、合成数据以及翻译数据集的组合。

模型质量

当我们深入探索语言模型的性能时，了解它们相互之间的对比是至关重要的。因此，我们利用内部基准测试平台，对Phi-3.5-mini模型与一系列近期表现优异的大型模型进行了对比测试。在表1的高级概述中，我们提供了模型在关键基准上的质量快照。尽管Phi-3.5-mini的参数量仅为3.8B，这种高效模型不仅在性能上与其他更大规模模型的水平持平，而且在很多情况下还超过了它们的表现。

多语言能力

Phi-3.5-mini 是我们最新的 3.8B 模型更新。该模型使用了额外的持续预训练和后训练数据，显著提升了多语言、多轮对话的质量和推理能力。该模型已经在以下选定语言集上进行训练：阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语和乌克兰语。
Phi-3.5-mini在多语言支持方面相比Phi-3-mini有显著提升。阿拉伯语、荷兰语、芬兰语、波兰语、泰语和乌克兰语从新版本的Phi中获得了最大的性能提升，提高了25-50%。将这一点放在更广泛的视野中，Phi-3.5-mini在小于8B的模型中表现出色，不仅在英语，还有多种语言中。值得注意的是，这个模型使用了32K的词汇表，并针对上述资源丰富的语言进行了优化，因此在没有进一步微调的情况下，不建议用于资源匮乏的语言。

长上下文

Phi-3.5-mini拥有128K的上下文长度支持，在长文档总结或会议记录、基于长文档的问答以及信息检索等任务上表现出色。相较于仅支持8K上下文长度的Gemma-2系列，Phi-3.5的表现更佳。此外，Phi-3.5-mini与更大的开放权重模型，如Llama-3.1-8B-instruct、Mistral-7B-instruct-v0.3和Mistral-Nemo-12B-instruct-2407等，也具有高度竞争力。表8列出了各种长上下文基准测试。

仅有38亿个参数、12.8万个上下文长度，并支持多语言的Phi-3.5-mini-instruct是这一类别中唯一的模型。值得注意的是，我们在保持英文在各项任务上的表现的同时，选择支持更多的语言。由于模型容量有限，这可能导致模型在英文知识方面优于其他语言。对于多语言的密集知识任务，我们建议使用RAG设置中的模型。

Phi-3.5视觉与多帧输入

Phi-3.5视觉引入了基于客户宝贵反馈开发的多帧图像理解和推理的尖端能力。这一创新技术能够实现详细的图像比较、多图像汇总/讲故事以及视频摘要，广泛适用于各种场景应用。

值得注意的是，Phi-3.5视觉技术在多个单图像基准测试中展示了显著的性能提升。例如，它将MMMU的性能从40.4提升到43.0，并将MMBench的性能从80.5提升到81.9。此外，文档理解基准测试TextVQA的得分也从70.9提高到了72.0。

以下表格详细比较了两个著名的多图像/视频基准测试的成果，展示了性能指标的增强。需要注意的是，Phi-3.5视觉技术并未针对多语言使用场景进行优化。建议在没有进一步微调的情况下，不要在多语言场景中使用它。

安全性

Phi-3系列模型是根据微软负责任人工智能标准开发的，这是一套全公司范围内基于以下六个原则的要求：可问责性、透明度、公平性、可靠性及安全性、隐私与安全、包容性。与之前的Phi-3模型一样，这次发布采用了多方面的安全评估和训练后安全方法，并额外考虑到此版本的多语言能力。我们在Phi-3安全后训练论文中概述了针对安全训练和评估的方法，包括在多种语言和风险类别中进行测试。虽然Phi-3模型从这种方法中受益，但开发者应应用负责任AI的最佳实践，包括映射、测量和缓解与他们特定使用案例以及文化语言环境相关的风险。

优化的变体

ONNX Runtime为Phi系列模型提供了优化的推理功能。您可以使用本示例在今天针对各种硬件目标优化Phi-3.5-mini模型。请关注接下来几周内更新的最新Phi-3.5型号的ONNX变体。

更可预测的输出

我们正在为Azure AI Studio中的Phi-3.5-mini无服务器端点产品引入引导（Guidance），通过定义与应用程序相适应的结构，使输出更加可预测。通过引导，您可以消除昂贵的重试，例如，限制模型从预定义的列表（如医疗代码）中选择，或将输出限制为引用提供上下文中的直接引语，或遵循任何正则表达式。引导在推理堆栈中对模型逐个令牌进行引导，降低成本和延迟30-50%，这使得它成为Phi-3-mini无服务器端点的一个独特且有价值的功能增强。

结语

Phi-3.5-mini在LLMs领域异军突起，其拥有仅为38亿参数、高达128K的上下文长度以及多语言支持，独具特色。Phi-3.5-mini在创建高效、多语言模型方面具有里程碑意义，既实现了广泛的语言支持，又在英语性能上有所专注。鉴于模型容量较小，用户可能会发现模型中英语知识的密度超过了其他语言。在处理多语言、知识密集型任务时，建议在检索增强生成（RAG）设置中运用Phi-3.5-mini。这种配置可以利用外部数据源，显著提高不同语言上的模型性能，从而缓解其紧凑架构所带来的语言特定限制。

Phi-3.5-MoE，拥有16个小型专家，提供高质量性能和降低的延迟，支持128k上下文长度、多语言支持以及强有力的安全措施。它超越了更大规模的模型，并可通过微调定制，以适用于各种应用，同时保持了效率，具有66亿活跃参数。

Phi-3.5-vision在多帧图像理解和推理方面带来进步，提升了单一图像基准性能。

Phi-3.5模型系列为开源社区和Azure客户提供了性价比高、功能强大的选择，在小型语言模型和生成式AI领域不断推进边界。

引入地址