openai GSM8K - 逻辑与数学能力数据集


一、关于 GSM8K

GSM8K 数据集概述

GSM8K(Grade School Math 8K)是一个包含8,500道高质量、语言多样的小学数学文字题的数据集。

该数据集的创建旨在支持需要多步推理的基础数学问题问答任务。

  • 这些问题需要2到8个步骤来解决。
  • 解题过程主要涉及使用基本算术运算(+ − ×÷)进行一系列基础计算,最终得出答案。
  • 一名优秀的中学生应能解决所有题目:根据论文所述,“题目所涉及的概念不超过初级代数水平,且绝大多数问题无需显式定义变量即可求解。”
  • 答案以自然语言形式提供,而非纯数学表达式。论文中提到:“我们认为这是最通用的数据格式,并期望它能揭示大型语言模型内部思维过程的特性。”

基础信息及相关链接

  • Hugging Face:https://huggingface.co/datasets/openai/gsm8k
  • 贡献团队:OpenAI
  • 数据集类型:基础型
  • 语言:该数据集中的文本为英文,对应的BCP-47代码是en
  • 支持的任务与排行榜:该数据集通常用于 测试语言模型中的逻辑与数学能力。它已被应用于多项基准测试,包括LLM排行榜
  • 标注员 : Surge AI (surgehq.ai)
  • License:MIT

二、数据集结构

1、数据实例

对于main配置,每个实例包含两个字符串:一个是小学数学级别的问题描述字符串,另一个是对应的答案字符串,其中包含多步推理过程和计算器标注(具体说明请参阅此处)。


{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nNatalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}


对于socratic配置,每个实例包含以下内容:一个小学级别数学问题的字符串、对应答案的多步推理字符串、计算器标注(解释见此处)以及苏格拉底式子问题

{
    'question': 'Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?',
    'answer': 'How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May.\nHow many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.\n#### 72',
}


2、数据字段

mainsocratic配置及其各自拆分版本中的数据字段保持一致。

  • question: 表示小学数学问题的提问字符串。
  • answer: 对应question的完整解答字符串。包含带有计算器标注的多步推理过程以及最终的数字解。

3、数据划分

名称训练集验证集
main74731319
socratic74731319

三、数据集创建

源数据


初始数据收集与标准化

根据论文附录A:

我们最初通过在Upwork(upwork.com)上雇佣自由职业者,收集了包含一千个问题及其自然语言解决方案的初始数据集。

随后,我们与NLP数据标注平台Surge AI(surgehq.ai)合作,扩大了数据收集规模。完成全量数据收集后,我们要求标注人员重新解答所有问题,并确保没有标注人员处理自己最初编写的问题。

我们核验了他们的最终答案是否与原始解决方案一致,存在分歧的问题会被修正或剔除。

接着,我们对问题的小规模子集进行了第二轮一致性检验,发现仍有1.7%的问题在标注人员间存在分歧。

我们估计这部分问题存在严重错误或歧义。实际上,可能存在更细微错误的问题比例可能更高。


伊织 xAI 2025-05-05(周一)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值