论文名称:Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction
论文链接:https://arxiv.org/abs/2504.15573
机构:香港科技大学 + 华为诺亚方舟实验室
Github代码链接:https://github.com/YJiangcm/WebR
简介
这篇论文其实挺有意思的,它是从原始网页文档里面合成高质量的指令遵循数据,主要是从通用、数学以及代码三个领域采样原始网页的文档,与10个业界开源的指令遵循数据集相比,训练后的效果非常好,所以值得一看。
Data Pipeline(Web Reconstruction)
业界方法对比
图1展示了三种数据合成方法的流程:
- 半自动化合成方法(Semi-Automated Synthetic Methods)
① 首先是由人(图中带灯泡标识的小人 )生成种子数据(图中的小数据库图标 )。
② 然后将这些种子数据输入到LLM中。
③ 最终得到中等质量(Mid-quality,图中的中等大小数据库图标 )的数据。
- 全自动合成方法(Prior Fully Automated Synthetic Methods)
① 先获取网页文档(Web Doc,图中的带地球标识的文档图标 )。
② 接着对网页文档进行过滤(Filtering,图中的漏斗图标 )操作。
③ 再把过滤后的数据输入到LLM中。
④ 最后得到低质量(Low-quality,图中的小数据库图标 )的数据。
- 本文的网页重构方法(Our Proposed Web Reconstruction)
① 先获取网页文档(Web Doc )。
② 利用“Web as Instruction”和“Web as Response”(图中虚框内内容 )这两个核心策略对网页文档进行处理。
然后输入到LLM中。
③ 最终得到高质量(High - quality,图中的大数据库图标 )的数据。
框架概述
图2展示了Web Reconstruction(WebR)框架中“Web as Instruction”和“Web as Response” 两个核心策略的流程:
- Web as Instruction(图中左侧粉色区域 )
① 获取原始网页内容:从像Wikipedia、Free Law Project等来源获取原始网页(Raw Web )内容。
② 生成重写指令:给出一个重写指令(Rewrite Instruction ),比如要求把原始网页文本浓缩成200字左右,先概述再列关键目标,用清晰标题确保可读性,语气专业。
③ 生成初步响应:LLM根据原始网页内容和重写指令,生成初步响应(Rollout Response ),像这里就生成了包含研究子组概述和关键目标等内容,还分了标题。
这个策略的作用是引导模型学会按要求重组、优化网页信息,提升指令遵循、上下文理解和推理的能力 。
- Web as Response(图中右侧蓝色区域 )
① 获取原始网页内容及对应指令:同样先有原始网页(Raw Web )内容,然后给出与网页对应的指令(Instruction Corresponding to the Web ),例如问英国大麻和大麻二酚(CBD)领域研究子组的主要目标和重点领域是什么。
② 生成初步回复:LLM基于原始网页内容和指令,生成初步回复(Rollout Response ) ,列出研究子组关注的关键目标和领域。
③ 优化回复:再将原始网页内容和指令提供给LLM,让它对初步回复进行优化,得到精炼回复(Refined Response ) ,使内容更完善、准确。
这个策略的作用是引导模型生成高质量响应的能力 。
数据构建细节
主要有以下几个方面:
① 文档采样
从三个有代表性的领域采样原始网页文档,通用领域(英文Common Crawl子集)占70% ,数学领域(OpenWebMath)占15% ,代码领域(GitHub)占15% 。
② 策略采用
采用受启发于前人研究的角色驱动指令合成策略,先让LLM为原始网页文档生成角色(类似System Prompt的Role Definition),指引后续Web Reconstruction过程的指令合成。
③ 比例设定
依据消融实验结果,设定“Web as Instruction”与“Web as Response”比例为2:1 。
因为如果比例不合适,可能导致模型在某些能力训练上有偏差,比如一种策略生成的数据过多,模型就可能过度擅长某类任务,而在另一类任务上表现不佳 。
④ 去重处理
运用基于n-gram特征的MinHash去重方法,将签名大小设为128,相似度阈值设为0.7 ,提升多样性、消除冗余,最终合成100000对指令-响应对。
⑤ 模型构建
用开源Llama3-70B-Instruct和专有GPT-4o-mini两个LLM构建数据集WebR-Basic和WebR-Pro ,并给出模型使用的temperature和top-p参数等。
实验结果
Baseline
-
人工制作数据:如 ShareGPT和 WildChat,分别包含 112K 和 652K 高质量的人与 GPT 之间的多轮对话。
-
半自动化合成数据:以 Alpaca和为代表,是通过半自动化技术生成的广泛使用的合成数据集。
-
混合数据:像 Tulu V2 Mix和 Open-Hermes 2.5,是众包数据集,分别包含 326K 和 1M 对话,聚合了各种开源 IT 数据集。
-
完全自动化合成数据:例如 Magpie,通过 Llama3-70B-Instruct 的聊天模板合成 IT 数据,从中采样 100k 示例。
评价指标
-
AlpacaEval 2:报告长度控制胜率(LC),确保模型不受冗长内容影响,具有稳健性。
-
Arena-Hard:报告相对于基线模型的胜率(WR)。
-
MT-Bench:使用 GPT-4-turbo 作为评估裁判,提供平均分数。
-
IFEval:报告两个指标,即提示级严格准确率(Pr. (S))和指令级严格准确率(Ins. (S))。
关键结论
①【表1】对Llama3-8B-base进行微调时,WebR生成的数据集(WebR-Basic、WebR-Pro)表现出色,WebR-Basic完全无需人工创建且显著超越SOTA的Magpie数据集(平均提升16.65%),WebR-Pro在相同响应生成器下分别比IT Mix和Magpie高出7.73%和12.55%,同时将IT Mix和WebR-Pro以两种策略合并后性能进一步提升,验证了WebR生成数据集的高质量和在提升指令跟随性能方面的优势。
②【表2】在多个领域(知识、推理、数学、代码)的下游任务中(以MMLU、ARC、WinoGrande、MATH、HumanEval等为代表),基于WebR数据集微调的模型性能超过了基于其他基线数据集训练的模型,验证了WebR数据集在提高模型泛化能力方面的有效性,且WebR-Pro与IT Mix结合进一步体现了WebR数据在使模型符合复杂任务要求方面的互补优势。
③【表3】去除角色信息、使用全网页内容、跳过优化步骤、取消去重均导致性能下降;“Web as Instruction”与“Web as Response”不同比例各有优势,2:1时整体性能最佳。
总结
本文的方法整体上最大的优势是,不挑数据源,是直接从网页上取材数据,由于篇幅有限,没有看到太多处理网页脏数据的细节,不过还好开源了代码,值得一试。