MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning

MATHSENSEI是一个工具增强的大型语言模型,专注于数学推理。通过结合知识检索、程序生成和执行、符号方程求解工具,该模型在MATH数据集上相对于gpt-3.5-turbo提高了13.5%的精度。然而,对于较简单的数学问题,TALM的优势不明显,复杂性和所需知识的增加会带来更大收益。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning》的翻译。

MATHSENSEI:一个用于数学推理的工具增强的大型语言模型

摘要

众所周知,工具增强的大型语言模型(TALM)可以增强大型语言模型的技能,从而提高它们在许多任务中的推理能力。尽管TALM已成功应用于不同的问答基准,但它们在复杂数学推理基准上的功效,以及知识检索和数学方程求解工具提供的潜在互补优势,都是开放的研究问题。在这项工作中,我们提出了MATHSENSEI,一个用于数学推理的工具增强的大型语言模型。我们通过对数学推理数据集的评估,研究了知识检索器(Bing Web Search)、程序生成器+执行器(Python)和符号方程求解器(WolframAlpha-API)等工具的互补优势。我们对MATH进行了详尽的分析,MATH是一个用于评估不同数学学科数学推理的流行数据集。我们还进行了涉及知名工具规划师的实验,以研究工具排序对模型性能的影响。MATHSENSEI在MATH数据集上使用思想链实现了比gpt-3.5-turbo高13.5%的精度。我们进一步观察到,TALM对更简单的数学单词问题(在GSM-8K中)没有那么有效,并且随着复杂性和所需知识的增加,其益处也会增加(逐渐超过AQuA、

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值