MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning

UnknownBody

于 2024-05-06 19:32:37 发布

阅读量219

点赞数 4

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/138504837

版权

LLM Daily 同时被 2 个专栏收录

1261 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Causal and Reasoning

99 篇文章

订阅专栏

MATHSENSEI是一个工具增强的大型语言模型，专注于数学推理。通过结合知识检索、程序生成和执行、符号方程求解工具，该模型在MATH数据集上相对于gpt-3.5-turbo提高了13.5%的精度。然而，对于较简单的数学问题，TALM的优势不明显，复杂性和所需知识的增加会带来更大收益。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《MATHSENSEI: A Tool-Augmented Large Language Model for Mathematical Reasoning》的翻译。

摘要

众所周知，工具增强的大型语言模型（TALM）可以增强大型语言模型的技能，从而提高它们在许多任务中的推理能力。尽管TALM已成功应用于不同的问答基准，但它们在复杂数学推理基准上的功效，以及知识检索和数学方程求解工具提供的潜在互补优势，都是开放的研究问题。在这项工作中，我们提出了MATHSENSEI，一个用于数学推理的工具增强的大型语言模型。我们通过对数学推理数据集的评估，研究了知识检索器（Bing Web Search）、程序生成器+执行器（Python）和符号方程求解器（WolframAlpha-API）等工具的互补优势。我们对MATH进行了详尽的分析，MATH是一个用于评估不同数学学科数学推理的流行数据集。我们还进行了涉及知名工具规划师的实验，以研究工具排序对模型性能的影响。MATHSENSEI在MATH数据集上使用思想链实现了比gpt-3.5-turbo高13.5%的精度。我们进一步观察到，TALM对更简单的数学单词问题（在GSM-8K中）没有那么有效，并且随着复杂性和所需知识的增加，其益处也会增加（逐渐超过AQuA、