Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks

本文是LLM系列文章,针对《Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks》的翻译。

Mathify:在数学问题解决任务中评估大型语言模型

摘要

自然语言处理(NLP)系统领域的快速发展和大型语言模型(LLMs)的扩展为教育和教学方法领域开辟了众多机会。这些进步提供了定制学习体验和即时反馈的潜力,所有这些都是通过可访问且具有成本效益的服务提供的。这项技术进步的一个显著应用领域是解决数学问题。数学问题解决不仅需要破译复杂问题陈述的能力,还需要在问题解决过程的每一步都进行精确算术计算的技能。然而,对大型语言模型的算术能力的评估仍然是一个相对较少受到关注的领域。作为回应,我们介绍了一个名为“MathQuest”的广泛数学数据集,该数据集来自第11和第12版标准数学NCERT教科书。该数据集涵盖了各种复杂度的数学挑战,并涵盖了广泛的数学概念。利用这个数据集,我们对三个著名的LLM进行了微调实验:LLaMA2、WizardMath和MAmmoTH。这些经过微调的模型可作为评估其在我们的数据集上的性能的基准。我们的实验表明,在三种模型中,MAmmoTH-13B是最熟练的,在解决所提出的数学问题方面达到了最高水平的能力。因此,MAmmoTH-13B将自己确立为解决NCERT数学问题的稳健可靠的基准。GitHub存储库:https://github.com/midas-research/mathify.

1 引言

2 相关工作

3 数据集

4 方法</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值