旧标准
数学推理是一项关键的认知技能,它支持许多科学和实际应用中的问题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。这种局限性限制了对模型数学推理能力的全面洞察。此外,GSM8K 的流行和普遍性可能会增加意外数据污染的风险。最后,GSM8K 的静态性质不允许进行可控实验以了解模型的局限性,例如在不同条件下的行为或问题方面和难度水平的变化。
新标准
为了解决这些问题,需要一个更多样化和适应性强的评估框架 —— 一个能够生成多样化的问题变体并调整复杂性水平以更好地探索 LLM 的鲁棒性和推理能力的框架。这将有助于更深入地了解这些模型在数学推理任务中的优势和劣势。作者做出了以下贡献:
1、作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。作者对 25 个最先进的开放和封闭模型进行了大规模研究,为 LLM 在数学推理任务中的行为提供了重要的见解。
2、作者质疑了当前在 GSM8K 上报告的结果的可靠性,并证明 LLM 的性能在处理同一问题的不同表述时,其表现的波动性是不合理的。他们展示了所有模型在 GSM-Symbolic 上的性能下降,暗示了潜在的数据污染。
3、作者展示了 LLM 对表面元素(如专有名词)的变化更具稳健性,但对数值变化非常敏感。他们展示了随着子句数量的增加,模型性能会下降,方差会增加。表明 LLM 的推理能力在复杂性增加时会遇到困难。
4、最后,作者进一步质疑了 LLM 的推理能力,并引入了 GSM-NoOp 数据集。通过在问题中添加看似相关但最终无关的信息,作者展示了所有 SOTA 模型的显著性能下降(最高的可以达到 65%)。
这揭示了模型在辨别相关信息以解决问题能力方面的一个关键缺陷,这可能是因为它们的推理不是常识意义上的形式化推理,而主要基于模式匹配。作者表明,即使提供了同一问题的多个示例或包含类似不相关信息的示例,LLM 也难以克服 GSM-NoOp 带来的挑战。这表明,他们的推理过程中存在更深层次的问题,这些问题无法通过上下文样本来缓解,还需要进一步研究。
新标准GSM-Symbolic
GSM8K 数据集包含 8000 多个小学数学题和答案,分为 7473 个训练样例和 1319 个测试样例,题目如图 1 所示。
但是,由于 GSM8K 比较流行,因此存在数据污染的风险。
这些限制促使人们努力生成新的数据集和变体。比如 iGSM 是通过合成 pipeline 创建的数学数据集,捕获了分层和图结构中的参数依赖关系;GSM-Plus 引入了 GSM8K 问题的变体,但缺乏符号模板,并且具有固定的大小和难度。
GSM-Symbolic 的设计能够生成大量实例,并允许更精细地控制问题难度。