微软 “小钢炮” ：Phi-4 - 合成数据驱动的大模型复杂推理

大模型.

于 2025-01-18 10:00:04 发布

阅读量808

点赞数 6

文章标签： microsoft 语言模型人工智能服务器架构百度大模型

本文链接：https://blog.csdn.net/EnjoyEDU/article/details/145221276

版权

近段时间 LLM 界一直沉浸在 DeepSeek-V3 所带来的震撼中，这个模型开源也就罢了，效果还好。但是，这种超大型的 LLM 不是我们能玩得起的（显存 hold 不住啊）。玩不起这个，那么就看看与此同时微软开源的小型 LLM Phi-4，只有 14B 参数，却敢主打推理能力，都不算是“小钢炮”了，简直就是“意大利炮”。下面咱们来简要的盘一盘。

Phi-4 是微软 Phi 系列 SLM 的最新成员，在数学相关推理方面优于同类和更大的模型，得益于训练过程中使用的数据、训练前后的方案。训练数据主要是合成数据构成的，而合成数据是使用多代理提示、自我修改工作流程和指令反转等技术实现的。通过这种方式，增强了 LLM 的推理和解决问题的能力，也解决传统无监督数据集中的一些缺陷。

通过对 Phi-4 技术报告的简要了解就可以知道，模型的架构延续了 Phi-3 的架构，核心还是数据的制作和配比，以及数据训练策略。下面就简要的阐述一下 Phi-4 的数据制作方式和训练特色。

数据 | Data

训练数据包含合成数据和高质量的网络数据，其中合成数据的制作主要从以下几个方面而来。

种子管理：首先，从多个领域获取高质量的种子数据。这些精选的种子为合成数据生成提供了基础，能够创建针对模型训练目标的练习、讨论和推理任务。主要有以下三种方法提取：

从网络和代码库中提取种子：从网页、书籍和代码库中提取片段和代码，重点关注内容复杂、推理深度高、具有教育价值的内容。在这个过程中，采用两阶段过滤来筛选这些数据：首先识别具有强大教育潜力的页面，然后将所选页面分成段落，并对每个段落的事实性和推理内容进行评分。

从问答数据集中收集问题：从网站、论坛和问答平台收集大量问题，并使用投票的过滤技术来筛选这些问题，以平衡难度。

从各种来源创建问答对：利用 LM 从书籍、科学论文和代码等 organic 来源中提取问答对。通过一个旨在检测文本中推理链或逻辑的 pipeline 来进行创建。【简单介绍下 organic data，就是指的人类生成或非合成的数据】

重写和扩充：接下来，通过多步骤提示工作流将种子转换为合成数据。这包括将给定段落中的大部分有用内容改写为练习、讨论或结构化推理任务。

自我修改：然后，通过反馈循环迭代地完善初始响应，在该循环中，模型在侧重于推理和事实准确性的标准的指导下，对其自身的输出进行批判并随后进行改进。

代码和其他任务的指令反转：除此之外，为了增强模型遵循指令生成输出的能力，使用了指令反转技术。

例如，从代码数据语料库中获取现有的代码片段，并使用它来生成相应的指令，包括问题描述或任务提示。生成的合成数据对的结构是指令出现在代码之前。仅保留原始代码和再生代码之间具有高保真度的数据，以确保指令和输出之间的一致性。这种方法可以推广到其他目标用例。

代码和其他科学数据的验证：在适当的情况下会结合测试来验证其推理密集型合成数据集。合成代码数据通过执行循环和测试进行验证。对于科学数据集，问题是从科学材料中提取的，使用的方法旨在确保高度相关性、基础性和难度平衡。

训练 | Train

训练流程可以分为三个主要阶段：预训练、中期训练和后训练。

预训练阶段

Phi-4 的预训练阶段主要依赖于合成数据，并辅以高质量的 organic 数据。

数据构成：混合的数据包含以下几种数据源：合成数据、网络改写数据、过滤后的网络数据（分为推理和知识密集型部分）、目标获取和 organic 数据（例如学术数据、书籍和论坛）以及代码数据。

数据比例：将 30% 的训练 tokens 分配给网络和网络改写数据源，两者之间平均分配。剩余的 tokens 主要来自合成数据，占数据混合 tokens 的 40%。最后，将 20% 的 tokens 分配给代码数据（合成代码和原始代码的混合），将 10% 的 tokens 分配给目标获取源，如学术数据和书籍。

模型架构： Decoder only 架构，拥有 14B 参数，默认上下文长度为 4k。

训练时长：大约使用了 10 T tokens 进行训练。

中期训练阶段

在预训练阶段之后，进入中期训练阶段，旨在将上下文长度从 4K 增加到 16K。

数据构成：为了适应更长的上下文，从高质量的非合成数据集中筛选出长度超过 8K 的样本，并对长度为 16K 或更长的数据提高了数据占比。此外，还创建了满足 > 4K 序列要求的新合成数据集。

数据比例：包括 30% 新筛选的较长上下文数据和 70% 来自预训练阶段的召回 tokens。

训练时长：中期训练阶段共训练了 2500B tokens。

后训练阶段

后训练阶段旨在提高模型在数学、编码、推理、稳健性和安全性等方面的能力。

微调方法：后训练阶段包括一轮有监督微调 (SFT)、一轮基于关键 token 搜索方法 (PTS) 的直接偏好优化 (DPO) 以及一轮基于完整长度偏好对的 DPO。

数据构成：训练后数据包括 SFT 数据集和 DPO 数据，涵盖了聊天格式数据、推理数据和可信性 AI (RAI) 数据。

总而言之，DeepSeek-V3 这种模型距离我们“贫民”还是有点儿远的（指的是自部署），但是 Phi-4 或许是一个不错的选择。尤其是在现在 organic 数据被“赶尽杀绝”的差不多的情况下，LLM 的预训练还能依赖合成数据取得这么好的效果，真心是不错了。合成数据的广泛使用、organic 数据源的精心管理和过滤，以及创新的训练后技术，这些技术的综合运用，不得不说为 LLM 的预训练又注入了新的生机。

说了这么多水话，还是看看它的实际效果吧。Phi-4 在 STEM 问答任务上表现出色，在 GPQA（研究生水平 STEM 问题）和 MATH（数学竞赛）基准测试中甚至超过了其教师模型 GPT-4o。但是，Phi-4 在严格格式遵循类任务上表现较差。【指令遵循类的数据集还是少了，哈哈哈】具体的评价就不多说了，感兴趣的小伙伴去看看官方的技术报告吧！

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】