Qwen2-Math碾压GPT-4:AI数学大师诞生!

厚德云

已于 2024-08-09 17:10:10 修改

阅读量314

点赞数 3

文章标签：人工智能云计算开源阿里云

于 2024-08-09 17:07:45 首次发布

本文链接：https://blog.csdn.net/holdcloud/article/details/141066727

版权

QQ截图20240809164953.jpg

Qwen2-Math

阿里巴巴开源的Qwen2-Math模型以惊人的84%准确率横空出世，不仅超越了GPT-4o，更是将Claude-3.5-Sonnet和Gemini-1.5-Pro等一众AI巨头甩在身后。这个AI数学大师的诞生，是否预示着人工智能在精确科学领域的新纪元即将到来？

Qwen2-Math

QQ截图20240809164925.jpg

官方数据图展示

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化，然后在精心设计的数学专用语料库上进行预训练，该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。

阿里在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了的 Qwen2-Math 基模型。此外，他们还评估了三个中国数学基准 CMATH，GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

数据测试

Qwen2-Math数据测试

在AI的世界里，性能声明往往需要经过严格的检验。Qwen2-Math也不例外。阿里云团队对这个模型进行了全方位的测试，确保其在各种数学场景下都能保持卓越的表现。

QQ截图20240809165856.jpg

成功解决的数学竞赛题

Qwen2-Math接受了一系列严苛的考验。从GSM8K和MATH基准测试，再到中国的高考和中考数学题，模型都展现出了惊人的解题能力。特别是在MATH测评中，Qwen2-Math-72B-Instruct以84%的准确率傲视群雄，超越了包括GPT-4o在内的多个顶尖模型。

去除数据污染

为了确保测试结果的公正性，团队对训练和微调数据进行了严格的去污染处理。他们移除了与知名基准测试数据集有重叠的样本，确保模型不会因为"提前看到答案"而获得不公平的优势。

包括 GSM8K、MATH在内，阿里移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。微调数据，移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本，使用了同样的过滤方法。

但阿里云团队并未就此止步。他们透露，目前的Qwen2-Math系列仅支持英语，但他们已经在积极开发支持英语和中文的双语模型，并计划在不久的将来推出多语言版本。此外，团队还在持续优化模型，以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。

有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。