InternLM2-Math-Plus全面升级，全尺寸最强的开源数学模型-CSDN博客

本文链接：https://blog.csdn.net/qq_39967751/article/details/139265798

总览

数学能力是大语言模型推理水平的重要体现。上海人工智能实验室在推出领先的开源数学模型InternLM2-Math的三个月之后对其进行了升级，发布了全新的 InternLM2-Math-Plus。升级后的 InternLM2-Math-Plus 在预训练和微调数据方面进行了全面的优化，显著提高了其在自然语言推理、代码解题以及形式化数学语言上的性能。模型包括了 1.8B、7B、20B、8x22B 四种不同尺寸的版本，其中 1.8B、7B、20B 版本基于 InternLM2 基座，而 8x22B 版本则基于 Mixtral-8x22B 基座。我们在权威数学测试集 MATH（英文）和 MathBench（中英文）上进行了自然语言数学能力的测试。在性能方面，在每个级别的模型都超过了该级别的开源 SOTA 模型，其中 7B 版本则超过了 7B 的最强开源模型 Deepseek-Math-7B-RL，而 8x22B 的表现超过了国内的闭源模型且可以和 GPT-4-Turbo 相媲美。在 MATH 测试集上，1.8B、7B、20B、8x22B 参数版本在 MATH 测试中的得分分别为 37.0、53.0、53.8 和 58.1 分。借助 Python 解释器，InternLM2-Math-Plus 在 MATH 上可以进一步取得 41.5、59.7、61.8 和 68.5 分的成绩，创开源模型的新高。除此之外，InternLM2-Math-Plus 通过强化学习强化了形式化语言证明数学定理的能力。我们在开源数据集 MiniF2F-test 上进行了测试，其包含了不同难度的初高中数学竞赛中的题目。InternLM2-Math-Plus 在 MiniF2F-test 上达到了43.4 (pass@1)的性能，超过了之前 Meta 的算法 HTPS 的 41.0 的性能。 InternLM2-Math-Plus 的代码和模型完全开源，并支持免费商用。