CMATH: 评估语言模型在小学数学测试中的表现
项目基础介绍和主要编程语言
CMATH 是一个开源项目,由小米公司(XiaoMi)开发和维护。该项目的主要编程语言是 Python。CMATH 项目旨在通过提供一个包含 1,700 个小学水平数学应用题的数据集,来评估当前流行的大语言模型在小学数学测试中的表现。
项目核心功能
CMATH 项目的主要功能包括:
- 数据集提供:项目提供了一个包含 1,700 个小学数学应用题的数据集,这些题目涵盖了小学六个年级的数学内容。
- 模型评估:通过这个数据集,研究人员可以评估各种大语言模型在小学数学测试中的表现,特别是它们的数学能力对应小学数学几年级的水平。
- 干扰信息评估:项目还通过在数据集中添加干扰信息来评估模型的稳健性,以测试模型在面对复杂问题时的表现。
项目最近更新的功能
CMATH 项目最近更新的功能包括:
- 数据集开源:项目分两批开源了 CMATH 数据集中的样本,第一批开源了 600 条样本,每个年级 100 条。这些样本可以视为一个开发集(dev set),剩余的样本(可以视为测试集)将在年底开源。
- 干扰集创建:为了评估大模型面对干扰信息的稳健性,项目创建了一个小型“干扰集”,包含 60 条样本,每条样本中包含 1 个原始问题以及 5 个由手工添加干扰信息后的“增广问题”,共 6 个问题。
- 自动化评估脚本:项目提供了一个名为
eval.py
的脚本,用于对模型生成的回复进行自动化的评估。
通过这些更新,CMATH 项目不仅提供了丰富的数据集,还为研究人员提供了一套完整的工具来评估和比较不同语言模型在小学数学测试中的表现。