论文阅读:GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

这篇论文介绍了一个名为GSM-PLUS的基准测试,它旨在全面评估大型语言模型(LLMs)解决数学问题时的鲁棒性。

背景与动机

  • 问题提出:尽管大型语言模型在数学推理任务上表现出色,但人们质疑这些模型是否真的理解数学知识,还是仅仅依赖于表面模式或数据泄露来解决问题。
  • 现有问题:当数学问题的表述稍作变化时,这些模型可能会给出错误的答案。

GSM-PLUS数据集

  • 数据集构建:研究者扩展了GSM8K数据集,创建了GSM-PLUS,它包含针对数学问题的多种扰动类型,以测试模型的鲁棒性。
  • 扰动类型:包括数值变化、算术变化、问题理解、分散项插入和批判性思维等。

实验设置与评估

  • 模型选择:评估了包括专有模型(如GPT-4)和开源模型在内的25种不同规模的LLMs。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值