本文是LLM系列文章,针对《MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning》的翻译。
摘要
众所周知,工具增强的大型语言模型(TALM)可以增强大型语言模型的技能,从而提高它们在许多任务中的推理能力。尽管TALM已成功应用于不同的问答基准,但它们在复杂数学推理基准上的功效,以及知识检索和数学方程求解工具提供的潜在互补优势,都是开放的研究问题。在这项工作中,我们提出了MATHSENSEI,一个用于数学推理的工具增强的大型语言模型。我们通过对数学推理数据集的评估,研究了知识检索器(Bing Web Search)、程序生成器+执行器(Python)和符号方程求解器(WolframAlpha-API)等工具的互补优势。我们对MATH进行了详尽的分析,MATH是一个用于评估不同数学学科数学推理的流行数据集。我们还进行了涉及知名工具规划师的实验,以研究工具排序对模型性能的影响。MATHSENSEI在MATH数据集上使用思想链实现了比gpt-3.5-turbo高13.5%的精度。我们进一步观察到,TALM对更简单的数学单词问题(在GSM-8K中)没有那么有效,并且随着复杂性和所需知识的增加,其益处也会增加(逐渐超过AQuA、