GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
这篇论文介绍了一个名为GSM-PLUS的基准测试,它旨在全面评估大型语言模型(LLMs)解决数学问题时的鲁棒性。
背景与动机
- 问题提出:尽管大型语言模型在数学推理任务上表现出色,但人们质疑这些模型是否真的理解数学知识,还是仅仅依赖于表面模式或数据泄露来解决问题。
- 现有问题:当数学问题的表述稍作变化时,这些模型可能会给出错误的答案。
GSM-PLUS数据集
- 数据集构建:研究者扩展了GSM8K数据集,创建了GSM-PLUS,它包含针对数学问题的多种扰动类型,以测试模型的鲁棒性。
- 扰动类型:包括数值变化、算术变化、问题理解、分散项插入和批判性思维等。
实验设置与评估
- 模型选择:评估了包括专有模型(如GPT-4)和开源模型在内的25种不同规模的LLMs。