在浩瀚的人工智能研究海洋中,我们见证了语言模型从单纯模仿人类答案到勇敢地批判自身输出的演进。近年来,传统的监督微调(SFT)方法虽然取得了不少成就,但随着问题复杂度和数据规模的不断攀升,这种纯粹“学会重复”的方式似乎逐渐失去了它的锋芒。取而代之的是一种启发自人类批判性思维的全新训练范式——批判微调(CFT),它不仅鼓励模型指出错误,并提出改进建议,同时显著提升了模型在数学推理和通用指令遵循任务中的表现。本文以自然杂志般的笔调,带您穿越这一智慧进化的历程,讲述模型如何“学会批评”,以及这种能力如何成为它们迈向高水平推理的重要阶梯。
🌍 序章:从单纯模仿到敢于批判
想象一个学生在课堂上不仅仅机械地背诵答案,而是学会了质疑和反思,这便是批判性思维的魅力。同样,在语言模型训练的世界里,传统的SFT方法要求模型对预先标注好的答案“照猫画虎”,忽略了深入理解问题本质以及发现自己输出局限的能力。正如人类在诸多领域取得突破往往源自敢于质疑既有观点一样,批判微调(CFT)则是将这种批判精神引入到模型训练中,使其在面对噪声答案时能够发现其中的不足,进而形成更为稳健的推理能力。
CFT的灵感来自于现实中的“批改作业”:教师不仅仅向学生提供正确答案,更会指出学生答案中的漏洞,并引导他们如何改进。论文《Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate》正是基于这一理念提出了一种全新的训练方法。在CFT架构下,模型不再被动地模仿,而是学习如何针对给定的问题-回答对组合([x; y])生成结构化的评价(c),这一评价既包含指出不足,也涵盖改进建议。
数学公式层面,CFT的目标可以表述为:
arg max θ log P ( c ∣ [ x ; y ] ; θ ) \arg\max_{\theta} \log P(c\mid [x;y];\theta) arg