GPT-4o的数学又双叕进步了？来MathBench看看新版GPT-4o到底强在哪

本文链接：https://blog.csdn.net/OpenCompass/article/details/140820516

数学推理和问题解决是人类智力的重要方面，几十年来也一直是人工智能（AI）领域研究的重点以及大模型的兵家必争之地。机器对数学问题的理解、解释和解决能力不仅是其认知能力的标杆，还在其各个领域的应用中发挥着关键作用。因为模型的数学能力强，往往代表了模型具有更强的推理和知识整合能力，也能更好的完成其他任务。随着现代大型语言模型（LLMs）如OpenAI的ChatGPT和GPT-4的出现，LLMs展示了生成类人对话和解决复杂数学难题的非凡能力。

而大模型的风到了2024年也仍然强劲，从META在4月18日发布Llama3-8B&70B开始，Qwen开源的首个百B大模型Qwen-1.5-110B，到深度求索的MOE模型DeepSeek-V2，还有近几日OpenAI放出的大招GPT-4o，号称更低的价格，更强的性能，大家都号称自己的新模型数学能力顶呱呱，但事实真是这样吗？透明化评测大模型的各项数学能力却成了大家的难题，开源数据集往往只有较为局限的评测角度，如常用的GSM8k专注日常计算，到了MATH却跨越到了高中数学竞赛。

比如，负责大模型数学部分的产品经理往往对新训练的模型有下面的小小期待：

🏠想要全面的，想知道从小学，初中到大学每个阶段模型数学表现各怎么样
📚中英文能力都要体现
🏷要是每道题都有知识点标签就好了
🤔emmm，能不能再考下理论题，天天做应用题也不知道是不是模型基础没打好
✈️测试出的结果要鲁棒，真实反映模型能力
😊不想收集一大堆数据集，最好上面的内容能一次测试完（-v-）
.....

这能满足吗？还真能！

在最新的ACL2024中，由上海人工智能实验室联合香港中文大学，北京航空航天大学和南京大学提出的MathBench打破了大模型数学评测不透明的现状，且已经被ACL2024 Findings接收。

Paper：https://arxiv.org/abs/2405.12209
Github：https://github.com/open-compass/MathBench
MathBench LeaderBoard：

正如本文开头所描述的，传统评估LLMs数学能力的基准存在一些局限性，如单一视角的解决问题能力评估和缺乏全面的学段分级。MathBench弥补了这些不足，提供了严格的数学能力评估新基准。

MathBench通过独特的五阶段分类法，从小学到大学教育路径设计，评估LLMs的数学理解能力，关注知识的广度和深度。基准包括精心策划的问题，涵盖基础理论知识和实际应用。这种双重焦点使MathBench能够从基础层面探测和解释模型的能力。此外，MathBench支持中英双语评估，提供更细致全面的评估工具，真实反映模型的数学能力现状。

MathBench整体结构示意

相比传统的数学评测集，MathBench有以下特点：

多维度的知识框架：MathBench配有一个多层次知识体系，具有从基础计算，小学到大学的5阶段的丰富题目，每阶段都配有相应的3层细粒度知识点，一次评测即能从广度和深度两个维度上掌握模型能力，不留遗憾。
理论与应用兼顾：“基础不牢，地动山摇”。MathBench分为MathBench-A（应用能力）和MathBench-T（理论能力）两个子集，不仅包含实际应用问题，还包含相关领域专家精心收集的基础数学概念和推论题。
双语支持：对于上述的所有知识层次，以及理论应用题，MathBench都提供中英文题目，且中英题目根据语境学习现状独立收集，拒绝🙅🏻♀️机翻，以保证评测结果的合理性。
鲁棒评测：针对数学评测难以抽取答案的现状，MathBench中的大部分题目为经过专家标注的选择题，保证了选项合理且有一定的干扰度，并且采用循环评测（CircularEval）作为基础评测方式，模型需要多次答对打乱选项顺序的同一题目才认为该题目被模型所掌握。
来源可靠：MathBench中约80%题目为新收集的题目，来源大部分为专业考试，如高考，中考等，且经过专门校验。

MathBench的5阶段3层知识点结构(小学与基础运算因有相同知识点体系而合并)

下面就让我们看一下在MathBench作为数学能力照妖镜下各模型的表现吧：

总体结果，GPT-4o优势明显，国产模型紧随其后：

MathBench理论与应用分级测评结果（A代表应用题结果，T代表理论题目）

在MathBench应用和理论双向评测下可以发现如下所述的一些要点👇🏻：

应用题上：
1. GPT-4o领先较大，在高学段尤为明显：
  
  部分国产模型，如Qwen-Max-0428和DeepSeek-V2-API都已经有着超越GPT4-0125-Preview的表现，但离最新版的GPT-4o仍有不小差距。通过MathBench的多阶段细分结果可以发现，差距在较高学段，如高中和大学的题目上尤为明显，如GPT-4o在大学阶段的应用题目上虽然只有54.0的CircularEval分数，但相对Qwen-Max-0428已经有着接近翻倍的表现，这表明在更难的题目，或是大学阶段的内容上模型可能需要针对性的优化。
2. 部分开源模型实力强劲： 如Llama3-70B-Instruct和Qwen1.5-110B-Chat有着超过GPT3.5-Turbo-0125，接近GPT4-0125-Preview的表现。DeepSeek-Math-7B-RL作为7B量级的开源数学模型表现亮眼，在应用题目上甚至超过了Qwen-72B-Chat。
理论题上：
1. GPT-4o各学段全面领先，展现扎实的基本数学功：
  
  作为基本数学理论能力的展现，MathBench-T中不仅考察模型基本数学知识，还加入常用的推论，以及精心设计的干扰项来迷惑模型，所以模型难以通过简单背诵来得到高分。GPT-4o在此阶段全面领先各API模型，拿下应用理论双第一名🏆，证明了其不仅基础扎实，且会熟练运用。
2. 理解理论并不代表能够熟练应用：
  
  如Qwen-1.5-110B-Chat虽与GPT-4o在理论阶段有着相似的分数，但在应用阶段两者差距较大，可能因为在较高阶段的数学知识上，运用要比理论需要更多的技巧，比如在高中和大学阶段，两者的应用分数差距越来越大，而理论上却没有相似的明显差距。

整体分数趋势：

下面是应用阶段的多个模型平均分数的整体趋势。可以发现，在基础运算（Arithmetic）阶段和小学数学（Primary）阶段有着类似的难度，而从初中起，随着学段的增加，模型的平均表现下降明显：

MathBench应用题在各学段上的平均模型结果，呈现自然的梯度趋势

双语言结果对比:

下面是众多Chat模型在MathBench上的中英双语言结果对比，按语言平均分从从小到大排序。其中某些模型有着较为明显的语言Gap，如MammoTH-13B，MetaMath-Llemma-7B以及Llama-3-70B-Instruct等模型明显偏向于英文，而GPT4o和GPT-4-0125-Preview在中英数学上有着相近的表现。值得注意的是为了MathBench的中英成绩能代表该语言环境下的真实成绩，在收集过程中并没有将题目相互翻译，所以在下面对比中仅供参考，因为题目不是中英文一一对应的关系。

代码辅助效果：

在使用InternLM2-7B-Chat结合ReAct方法来解决MathBench中的数学问题时，发现Code Agent显著提高了应用部分的平均分数，尤其是算术部分，提高了InternLM2-7B-Chat约64%（从53.0提升到87.3）。这展示了Code Agent的引入能大幅提升模型的基础数值计算能力。

然而，对于更复杂的问题，例如大学级别的应用部分，模型在代码解释器的辅助下也并未显著提高其表现，甚至略微降低了性能。在理论问题上，代码代理对InternLM2-7B-Chat的性能也没有显著提升。这表明，数学理论能力作为模型的重要基础技能，需要的不仅是外部工具。相反，它需要进一步探索提升大型语言模型理解和应用数学知识的有效方法。

代码辅助解决MathBench题目效果

CircularEval评估和准确度ACC评估对比：

下图展示了在MathBench中采用循环评估（CircularEval）和标准评测方式准确率（ACC）分数的对比。随着模型性能的提高，CE和ACC分数之间的差距逐渐缩小，这表明更强大的模型在数学问答中能够提供更稳健和准确的答案。

如何使用MathBench进行模型评测？

MathBench目前支持在OpenCompass中一键评测啦！

OpenCompass作为行业领先大模型开源评测体系，致力于探索最先进的语言与视觉模型，为工业界和研究社区提供全面、客观、中立的评测参考，从而根据不同能力维度的评测分数指导大模型的优化与进步。同时，司南 OpenCompass 评测过程中所用到的工具链均已在 Github 开源，欢迎使用OpenCompass来探索大模型的奥秘。

GitHub: https://github.com/open-compass/
OpenCompass大模型榜单：https://opencompass.org.cn/home

只需下面一行代码，支持百种大模型一键化评测，如Llama2-7B-Chat模型进行MathBench评测只需要：

# Inference MathBench with hf_llama2_7b_chat model
python run.py --models hf_llama2_7b_chat --datasets mathbench_gen

结论：

MathBench作为一个新颖而全面的多语言基准，旨在评估LLMs在从基本算术到具有挑战性的大学数学的多样难度上的数学能力。通过五级分类体系和双语支持，MathBench为研究人员和开发者提供了一个宝贵的资源，以推进LLMs的数学能力，并了解现有模型在解决复杂数学问题上的局限性。

MathBench涵盖了广泛的数学题目，提供了对理论理解和实际问题解决能力的详细评估。基准分为五个阶段，从基础算术到大学数学，采用结构化评估模型以适应不同知识水平。每个阶段包含理论问题和应用问题，能测量模型的数学熟练度及其在实际场景中的应用能力。MathBench旨在提升LLMs数学能力评估的精确性，提供深入理解其知识水平和问题解决能力的细致视角，并支持中英双语评估。

期待MathBench能为研究人员和开发者提供有价值的洞见，推动LLMs在数学领域的能力提升。如果你对人工智能和数学研究感兴趣，不妨关注我们的项目，共同探索这一前沿领域。

欢迎大家关注“司南评测体系”微信公众号和知乎账号，获取更多大模型评测相关知识~