Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks

最新推荐文章于 2025-06-15 22:15:42 发布

UnknownBody

最新推荐文章于 2025-06-15 22:15:42 发布

阅读量97

点赞数

分类专栏： LLM Daily LLM for education 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141384333

版权

LLM Daily 同时被 2 个专栏收录

1275 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for education

12 篇文章

订阅专栏

本文是LLM系列文章，针对《Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks》的翻译。

Mathify：在数学问题解决任务中评估大型语言模型

摘要
1 引言
2 相关工作
3 数据集
4 方法
5 实验
6 结果和讨论
7 结论
8 局限性

摘要

自然语言处理（NLP）系统领域的快速发展和大型语言模型（LLMs）的扩展为教育和教学方法领域开辟了众多机会。这些进步提供了定制学习体验和即时反馈的潜力，所有这些都是通过可访问且具有成本效益的服务提供的。这项技术进步的一个显著应用领域是解决数学问题。数学问题解决不仅需要破译复杂问题陈述的能力，还需要在问题解决过程的每一步都进行精确算术计算的技能。然而，对大型语言模型的算术能力的评估仍然是一个相对较少受到关注的领域。作为回应，我们介绍了一个名为“MathQuest”的广泛数学数据集，该数据集来自第11和第12版标准数学NCERT教科书。该数据集涵盖了各种复杂度的数学挑战，并涵盖了广泛的数学概念。利用这个数据集，我们对三个著名的LLM进行了微调实验：LLaMA2、WizardMath和MAmmoTH。这些经过微调的模型可作为评估其在我们的数据集上的性能的基准。我们的实验表明，在三种模型中，MAmmoTH-13B是最熟练的，在解决所提出的数学问题方面达到了最高水平的能力。因此，MAmmoTH-13B将自己确立为解决NCERT数学问题的稳健可靠的基准。GitHub存储库：

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。