【LLM 指令遵循】论文分享： Web Reconstruction-CSDN博客

本文链接：https://blog.csdn.net/LG154721/article/details/148326375

论文名称：Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction

论文链接：https://arxiv.org/abs/2504.15573

机构：香港科技大学 + 华为诺亚方舟实验室

Github代码链接：https://github.com/YJiangcm/WebR

简介

这篇论文其实挺有意思的，它是从原始网页文档里面合成高质量的指令遵循数据，主要是从通用、数学以及代码三个领域采样原始网页的文档，与10个业界开源的指令遵循数据集相比，训练后的效果非常好，所以值得一看。

Data Pipeline（Web Reconstruction）

业界方法对比

在这里插入图片描述

图1展示了三种数据合成方法的流程：

半自动化合成方法（Semi-Automated Synthetic Methods）

① 首先是由人（图中带灯泡标识的小人）生成种子数据（图中的小数据库图标）。

② 然后将这些种子数据输入到LLM中。

③ 最终得到中等质量（Mid-quality，图中的中等大小数据库图标）的数据。

全自动合成方法（Prior Fully Automated Synthetic Methods）

① 先获取网页文档（Web Doc，图中的带地球标识的文档图标）。

② 接着对网页文档进行过滤（Filtering，图中的漏斗图标）操作。

③ 再把过滤后的数据输入到LLM中。

④ 最后得到低质量（Low-quality，图中的小数据库图标）的数据。

本文的网页重构方法（Our Proposed Web Reconstruction）

① 先获取网页文档（Web Doc ）。

② 利用“Web as Instruction”和“Web as Response”（图中虚框内内容）这两个核心策略对网页文档进行处理。

然后输入到LLM中。

③ 最终得到高质量（High - quality，图中的大数据库图标）的数据。

框架概述

在这里插入图片描述

图2展示了Web Reconstruction（WebR）框架中“Web as Instruction”和“Web as Response” 两个核心策略的流程：

Web as Instruction（图中左侧粉色区域）

① 获取原始网页内容：从像Wikipedia、Free Law Project等来源获取原始网页（Raw Web ）内容。

② 生成重写指令：给出一个重写指令（Rewrite Instruction ），比如要求把原始网页文本浓缩成200字左右，先概述再列关键目标，用清晰标题确保可读性，语气专业。

③ 生成初步响应：LLM根据原始网页内容和重写指令，生成初步响应（Rollout Response ），像这里就生成了包含研究子组概述和关键目标等内容，还分了标题。

这个策略的作用是引导模型学会按要求重组、优化网页信息，提升指令遵循、上下文理解和推理的能力。

Web as Response（图中右侧蓝色区域）

① 获取原始网页内容及对应指令：同样先有原始网页（Raw Web ）内容，然后给出与网页对应的指令（Instruction Corresponding to the Web ），例如问英国大麻和大麻二酚（CBD）领域研究子组的主要目标和重点领域是什么。

② 生成初步回复：LLM基于原始网页内容和指令，生成初步回复（Rollout Response ），列出研究子组关注的关键目标和领域。

③ 优化回复：再将原始网页内容和指令提供给LLM，让它对初步回复进行优化，得到精炼回复（Refined Response ），使内容更完善、准确。

这个策略的作用是引导模型生成高质量响应的能力。

数据构建细节

主要有以下几个方面：

① 文档采样

从三个有代表性的领域采样原始网页文档，通用领域（英文Common Crawl子集）占70% ，数学领域（OpenWebMath）占15% ，代码领域（GitHub）占15% 。

② 策略采用

采用受启发于前人研究的角色驱动指令合成策略，先让LLM为原始网页文档生成角色（类似System Prompt的Role Definition），指引后续Web Reconstruction过程的指令合成。

③ 比例设定

依据消融实验结果，设定“Web as Instruction”与“Web as Response”比例为2:1 。

因为如果比例不合适，可能导致模型在某些能力训练上有偏差，比如一种策略生成的数据过多，模型就可能过度擅长某类任务，而在另一类任务上表现不佳。

④ 去重处理

运用基于n-gram特征的MinHash去重方法，将签名大小设为128，相似度阈值设为0.7 ，提升多样性、消除冗余，最终合成100000对指令-响应对。

⑤ 模型构建

用开源Llama3-70B-Instruct和专有GPT-4o-mini两个LLM构建数据集WebR-Basic和WebR-Pro ，并给出模型使用的temperature和top-p参数等。

实验结果

Baseline

人工制作数据：如 ShareGPT和 WildChat，分别包含 112K 和 652K 高质量的人与 GPT 之间的多轮对话。
半自动化合成数据：以 Alpaca和为代表，是通过半自动化技术生成的广泛使用的合成数据集。
混合数据：像 Tulu V2 Mix和 Open-Hermes 2.5，是众包数据集，分别包含 326K 和 1M 对话，聚合了各种开源 IT 数据集。
完全自动化合成数据：例如 Magpie，通过 Llama3-70B-Instruct 的聊天模板合成 IT 数据，从中采样 100k 示例。

评价指标

AlpacaEval 2：报告长度控制胜率（LC），确保模型不受冗长内容影响，具有稳健性。
Arena-Hard：报告相对于基线模型的胜率（WR）。
MT-Bench：使用 GPT-4-turbo 作为评估裁判，提供平均分数。
IFEval：报告两个指标，即提示级严格准确率（Pr. (S)）和指令级严格准确率（Ins. (S)）。

关键结论

①【表1】对Llama3-8B-base进行微调时，WebR生成的数据集（WebR-Basic、WebR-Pro）表现出色，WebR-Basic完全无需人工创建且显著超越SOTA的Magpie数据集（平均提升16.65%），WebR-Pro在相同响应生成器下分别比IT Mix和Magpie高出7.73%和12.55%，同时将IT Mix和WebR-Pro以两种策略合并后性能进一步提升，验证了WebR生成数据集的高质量和在提升指令跟随性能方面的优势。

在这里插入图片描述

②【表2】在多个领域（知识、推理、数学、代码）的下游任务中（以MMLU、ARC、WinoGrande、MATH、HumanEval等为代表），基于WebR数据集微调的模型性能超过了基于其他基线数据集训练的模型，验证了WebR数据集在提高模型泛化能力方面的有效性，且WebR-Pro与IT Mix结合进一步体现了WebR数据在使模型符合复杂任务要求方面的互补优势。

在这里插入图片描述