论文翻译：GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Probl

CSPhD-winston-杨帆

已于 2024-07-26 17:42:37 修改

阅读量857

点赞数 7

分类专栏：论文翻译 LLMs-鲁棒性智慧教育文章标签：人工智能算法

于 2024-07-25 10:17:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/140679920

版权

论文翻译同时被 3 个专栏收录

89 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

23 篇文章 0 订阅

订阅专栏

19 篇文章 1 订阅

订阅专栏

GSM-PLUS: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

GSM-PLUS: 一个全面评估大型语言模型作为数学问题解决者鲁棒性的基准测试

摘要

大型语言模型（LLMs）在各种数学推理基准测试中取得了令人印象深刻的表现。然而，关于这些模型是否真的理解并应用数学知识，还是仅仅依赖于数学推理的捷径，争论越来越多。一个关键且频繁出现的证据是，当数学问题稍有变化时，LLMs可能会出现不正确的行为。这激励我们通过测试广泛的数学问题范围，包括GSM8K（Cobbe等人，2021年）、高中数学MATH（Hendrycks等人，2021年）和大学数学定理问答Theoremqa（Chen等人，2023年），来评估LLMs数学推理能力的鲁棒性。关于广泛使用的GSM8K基准测试，像GPT-4这样的专有模型和尖端的开源模型分别报告了超过90%和80%的准确率。然而，研究界关于这些模型是否真的理解并应用数学知识，还是仅仅基于表面模式（Patel等人，2021年）解

了解本专栏

超级会员免费看

CSPhD-winston-杨帆

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。