概述
论文地址:https://arxiv.org/pdf/2404.00344
源码地址:https://github.com/gipplab/llm-investig-mathstackexchange
大规模语言模型(LLMs)因其解决自然语言任务的能力而备受关注,在某些任务中,其准确性甚至可媲美人类。这些模型在翻译、代码编写和通过专业考试等各种任务中表现出色,并被用于知识提取、想法生成以及数据处理和比较。大规模语言模型在问题解答(QA)任务中也取得了成功,在这些任务中,自然语言为问题提供了类似于人类的答案;在 QA 中对大规模语言模型的评估已经证明了其有用性。它已被证明是有用的。
近年来,数学内容在科学、技术、工程和数学(STEM)领域日益受到重视,有鉴于此,评估大规模语言模型如何适应数学语言也非常重要。数学因其严密的逻辑和抽象的概念,需要用符号和语法组合复杂的专门语言来表达。与自然语言不同,数学表达依赖于未说明的规则和假设,需要明确的知识和高度的精确性。这意味着,即使在现代语言模型中,数学推理仍然是一项重大挑战。
本文研究了大规模语言模型回答数学开放式问题(不能用 "是/否 "回答的问题)的能力。MSE 包含从初等数学到高等数学的各种问题,要求应用正确的数学原理并对复杂的推理进行清晰易懂的解释。开放式问题的重点在于促进对数学概念的深刻理解,并为大规模语言模型提供了衡量数学推理技能进步的基准。