【评估与测试】数据集合集,宝藏合集!

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

NumGLUE

  • 发布方:

    Microsoft Research·Arizona State University·Allen Institute for AI

  • 发布时间:

    2022-04-12

  • 简介:

    NumGLUE 是一个多任务基准测试,用于评估人工智能系统在八个不同任务上的性能,其核心需要简单的算术理解。

  • 下载地址:

    https://allenai.org/data/numglue

  • 论文地址:

    https://arxiv.org/pdf/2204.05660

2

ARB

  • 发布方:

    苏黎世联邦理工学院·佐治亚理工学院·DuckAI

  • 发布时间:

    2023-07-01

  • 简介:

    ARB 是一个新颖的基准数据集,由高级推理问题组成,旨在评估法学硕士在文本理解和专家领域推理方面的能力,提供比以前的基准更具挑战性的测试,其特点是测试更深入的数学、物理、生物、化学和法律知识。

  • 下载地址:

    https://github.com/TheDuckAI/arb

  • 论文地址:

    https://arxiv.org/pdf/2307.13692.pdf

3

UniMER Dataset

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2024-05-06

  • 简介:

    UniMER数据集是专门为通用数学表达式识别(MER)发布的数据集。它包含了真实全面的UniMER-1M训练集,拥有超过一百万个代表广泛和复杂数学表达式的实例,以及精心设计的UniMER测试集,用于在真实世界场景中评估MER模型。数据集详情如下:

    UniMER-1M 训练集:

    总样本数:1,061,791

    组成:简洁与复杂、扩展公式表达式的平衡融合

    目标:帮助训练鲁棒性强、高精度的MER模型,增强识别准确性和模型泛化能力 

    UniMER 测试集:

    总样本数:23,757,分为四种表达式类型:

    简单印刷表达式(SPE):6,762 个样本

    复杂印刷表达式(CPE):5,921 个样本

    屏幕截图表达式(SCE):4,742 个样本

    手写表达式(HWE):6,332 个样本

    目的:为MER模型提供一个全面的评估平台,以准确评估真实场景下各类公式识别能力

  • 下载地址:

    https://github.com/opendatalab/UniMERNet

  • 论文地址:

    https://arxiv.org/abs/2404.15254

4

FeedbackQA

  • 发布方:

    加州大学·麦吉尔大学

  • 发布时间:

    2022

  • 简介:

    我们收集了一个基于检索的 QA 数据集,FeedbackQA,其中包含来自用户的交互式反馈。我们通过将基础 QA 系统部署给众包工作者来收集此数据集,然后众包工作者参与该系统并就其答案的质量提供反馈。反馈包含结构化评级和非结构化自然语言解释。检查底部的数据集浏览器以获取一些真实示例。

  • 下载地址:

    https://mcgill-nlp.github.io/feedbackqa/

  • 论文地址:

    https://arxiv.org/pdf/2204.03025.pdf

5

DRAW-1k

  • 发布方:

    伊利诺伊大学厄巴纳香槟分校·Microsoft Research

  • 发布时间:

    2016-09-21

  • 简介:

    DRAW-1K是一个由 1000 个代数应用题组成的数据集,半自动注释用于评估自动求解器。 DRAW 包括黄金系数对齐,这是唯一标识方程系统的推导所必需的。

    作者提出了一种针对代数问题自动求解器的新评估方法,它可以识别现有评估方法忽略的错误。他们的建议是使用推导来评估此类求解器,推导反映了如何从文字问题构建方程系统。为了实现这一目标,他们开发了一种算法来检查两个推导之间的等价性,并展示了如何将推导注释半自动添加到现有数据集中。为了使实验更加全面,我们添加了 DRAW-1K 的推导注释,这是一个包含 1000 个一般代数应用题的新数据集。在实验中,他们发现带注释的推导可以比以前使用的指标更准确地评估自动求解器。他们发布了 2300 多个代数应用题的推导注释,以供未来评估。

  • 下载地址:

    https://www.microsoft.com/en-us/download/details.aspx?id=52628

  • 论文地址:

    https://arxiv.org/pdf/1609.07197

6

SingleOP(Quantities)

  • 发布方:

    约翰霍普金斯大学·伊利诺伊大学厄巴纳香槟分校

  • 发布时间:

    2015-01-13

  • 简介:

    用于研究自然语言文本中数量使用的数据。

    如果约翰尼有五个苹果和七个橙子,他想与他的三个朋友分享它们,计算机能否理解文本并计算出每个人得到多少个水果?

    得益于伊利诺伊大学开发的新软件,机器现在可以学习理解用语言表达的数学推理,这可以极大地改进搜索引擎和数据访问,并促进数学教育。

  • 下载地址:

    https://cogcomp.seas.upenn.edu/page/publication_view/759

  • 论文地址:https://cogcomp.seas.upenn.edu/papers/RoyViRo15.pdf

7

ChemBench4K

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2024-02-10

  • 简介:

    chembench是一个包含了九项化学核心任务,4100个高质量单选问答的大语言模型化学能力评测基准.

  • 下载地址:

    https://github.com/shenwanxiang/ChemBench

  • 论文地址:

    https://arxiv.org/pdf/2402.06852

8

SingleEQ

  • 发布方:

    华盛顿大学·Allen Institute for AI

  • 发布时间:

    2015-12-01

  • 简介:

    SINGLEEQ由 508 个问题、1,117 个句子和 15,292 个单词组成。

    SingleEQ 数据集位于 questions.json 中,根据需要将其替换为类似格式的数据集。

  • 下载地址:

    https://gitlab.cs.washington.edu/ALGES/TACL2015/-/tree/master?ref_type=heads

  • 论文地址:

    https://aclanthology.org/Q15-1042.pdf

9

ProofWriter

  • 发布方:

    艾伦人工智能研究所

  • 发布时间:

    2020-06-03

  • 简介:

    这些数据集伴随着论文“ProofWriter:在自然语言上生成含义、证明和溯因陈述”。它们包含更新的 RuleTaker 风格的数据集,其中包含 50 万个问题、答案和基于自然语言规则库的证明,用于表明 Transformer 可以模拟对用语言表达的规则进行推理,包括证明生成。它包括使用封闭和开放世界语义的变体。证明包括中间结论。额外的注释提供数据来训练迭代的 ProofWriter 模型以及溯因推理来确定不确定的陈述。

  • 下载地址:

    https://allenai.org/data/proofwriter

  • 论文地址:

    https://arxiv.org/pdf/2012.13048.pdf

10

DMath (Diverse Math Word Problems)

  • 发布方:

    成均馆大学

  • 发布时间:

    2023-12-06

  • 简介:

    DMath(多元化数学应用题),这是论文“ It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset ”的 10K 高质量小学水平数学应用题的集合。

  • 下载地址:

    https://github.com/JiwooKimAR/dmath?tab=readme-ov-file

  •  论文地址:

    https://aclanthology.org/2023.emnlp-main.927.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值