Qwen2-Math碾压GPT-4:AI数学大师诞生!

QQ截图20240809164953.jpg

Qwen2-Math

阿里巴巴开源的Qwen2-Math模型以惊人的84%准确率横空出世,不仅超越了GPT-4o,更是将Claude-3.5-Sonnet和Gemini-1.5-Pro等一众AI巨头甩在身后。这个AI数学大师的诞生,是否预示着人工智能在精确科学领域的新纪元即将到来?

Qwen2-Math

QQ截图20240809164925.jpg

官方数据图展示

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。

阿里在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了的 Qwen2-Math 基模型。此外,他们还评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

数据测试

Base-Table1.png

Qwen2-Math数据测试

在AI的世界里,性能声明往往需要经过严格的检验。Qwen2-Math也不例外。阿里云团队对这个模型进行了全方位的测试,确保其在各种数学场景下都能保持卓越的表现。

QQ截图20240809165856.jpg

成功解决的数学竞赛题

Qwen2-Math接受了一系列严苛的考验。从GSM8K和MATH基准测试,再到中国的高考和中考数学题,模型都展现出了惊人的解题能力。特别是在MATH测评中,Qwen2-Math-72B-Instruct以84%的准确率傲视群雄,超越了包括GPT-4o在内的多个顶尖模型。

去除数据污染

为了确保测试结果的公正性,团队对训练和微调数据进行了严格的去污染处理。他们移除了与知名基准测试数据集有重叠的样本,确保模型不会因为"提前看到答案"而获得不公平的优势。

包括 GSM8K、MATH在内,阿里移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。

​但阿里云团队并未就此止步。他们透露,目前的Qwen2-Math系列仅支持英语,但他们已经在积极开发支持英语和中文的双语模型,并计划在不久的将来推出多语言版本。此外,团队还在持续优化模型,以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。

 有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值