InternLM2-Math-Plus全面升级,全尺寸最强的开源数学模型

总览

数学能力是大语言模型推理水平的重要体现。上海人工智能实验室在推出领先的开源数学模型InternLM2-Math的三个月之后对其进行了升级,发布了全新的 InternLM2-Math-Plus。升级后的 InternLM2-Math-Plus 在预训练和微调数据方面进行了全面的优化,显著提高了其在自然语言推理、代码解题以及形式化数学语言上的性能。模型包括了 1.8B、7B、20B、8x22B 四种不同尺寸的版本,其中 1.8B、7B、20B 版本基于 InternLM2 基座,而 8x22B 版本则基于 Mixtral-8x22B 基座。 我们在权威数学测试集 MATH(英文)和 MathBench(中英文)上进行了自然语言数学能力的测试。在性能方面,在每个级别的模型都超过了该级别的开源 SOTA 模型,其中 7B 版本则超过了 7B 的最强开源模型 Deepseek-Math-7B-RL,而 8x22B 的表现超过了国内的闭源模型且可以和 GPT-4-Turbo 相媲美。 在 MATH 测试集上,1.8B、7B、20B、8x22B 参数版本在 MATH 测试中的得分分别为 37.0、53.0、53.8 和 58.1 分。借助 Python 解释器,InternLM2-Math-Plus 在 MATH 上可以进一步取得 41.5、59.7、61.8 和 68.5 分的成绩,创开源模型的新高。 除此之外,InternLM2-Math-Plus 通过强化学习强化了形式化语言证明数学定理的能力。我们在开源数据集 MiniF2F-test 上进行了测试,其包含了不同难度的初高中数学竞赛中的题目。InternLM2-Math-Plus 在 MiniF2F-test 上达到了43.4 (pass@1)的性能,超过了之前 Meta 的算法 HTPS 的 41.0 的性能。 InternLM2-Math-Plus 的代码和模型完全开源,并支持免费商用。

  • GitHu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值