当人工智能进入日常生活,语言模型(LM)在生成自然且富有创造性文本方面表现卓越,但令人困惑的问题悄然浮现:如何客观而精细地评估这些模型的表现?近期,一项前沿研究探索了利用长链式推理(chain‑of‑thought, CoT)来扩展评测时计算,从而提升评估的准确性和鲁棒性。这篇文章将带你走进这场“评测革命”,揭示作者如何借助推理模型作为过程评估器,实现评价能力与生成能力的双向提升。
🌟 基础概念与创新突破:走出评测困局
研究的核心问题在于,传统评估方法往往依赖专门训练的奖励模型(reward models),直接预测回答的总评分;然而,对于复杂问题的评测,这种方法容易忽略解题过程中存在的逻辑漏洞。正如一位名侦探在细查嫌疑犯时需要一层一层剥离线索,评估一个复杂答案也需要逐步审视每个推理步骤的合理性。
为此,论文提出了两种全新的评测方式:
-
推理由结果评估器(Reasoning Outcome Evaluator)
这种评估器会先生成一段长长的链式推理,然后依据推理过程末尾产生的判断(通常输出“1”为正确,“0”为错误),将对答案整体的正确性做出打分。通过设定诸如