CMATH: 评估语言模型在小学数学测试中的表现

CMATH: 评估语言模型在小学数学测试中的表现

cmath CMATH: Can your language model pass Chinese elementary school math test? cmath 项目地址: https://gitcode.com/gh_mirrors/cm/cmath

项目基础介绍和主要编程语言

CMATH 是一个开源项目,由小米公司(XiaoMi)开发和维护。该项目的主要编程语言是 Python。CMATH 项目旨在通过提供一个包含 1,700 个小学水平数学应用题的数据集,来评估当前流行的大语言模型在小学数学测试中的表现。

项目核心功能

CMATH 项目的主要功能包括:

  1. 数据集提供:项目提供了一个包含 1,700 个小学数学应用题的数据集,这些题目涵盖了小学六个年级的数学内容。
  2. 模型评估:通过这个数据集,研究人员可以评估各种大语言模型在小学数学测试中的表现,特别是它们的数学能力对应小学数学几年级的水平。
  3. 干扰信息评估:项目还通过在数据集中添加干扰信息来评估模型的稳健性,以测试模型在面对复杂问题时的表现。

项目最近更新的功能

CMATH 项目最近更新的功能包括:

  1. 数据集开源:项目分两批开源了 CMATH 数据集中的样本,第一批开源了 600 条样本,每个年级 100 条。这些样本可以视为一个开发集(dev set),剩余的样本(可以视为测试集)将在年底开源。
  2. 干扰集创建:为了评估大模型面对干扰信息的稳健性,项目创建了一个小型“干扰集”,包含 60 条样本,每条样本中包含 1 个原始问题以及 5 个由手工添加干扰信息后的“增广问题”,共 6 个问题。
  3. 自动化评估脚本:项目提供了一个名为 eval.py 的脚本,用于对模型生成的回复进行自动化的评估。

通过这些更新,CMATH 项目不仅提供了丰富的数据集,还为研究人员提供了一套完整的工具来评估和比较不同语言模型在小学数学测试中的表现。

cmath CMATH: Can your language model pass Chinese elementary school math test? cmath 项目地址: https://gitcode.com/gh_mirrors/cm/cmath

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幸越举Nessa

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值