【持续更新中!数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等

上周,著名数学家陶哲轩在个人博客中发布了「AI for Math Resourses」的资源清单,旨在为那些有意进入人工智能数学领域的人提供帮助,这份清单由「人工智能辅助数学推理」研讨会整理。该研讨会由美国国家科学院、工程院和医学院共同组织,陶哲轩担任该研讨会的主持人。

这份清单文档尚未最终定稿,陶哲轩及其他研究者仍在不断完善中。HyperAI超神经从中筛选出了部分数据集供大家下载使用, 除此之外,还为大家补充汇总了其他数学方面的数据集,助力 AI for Math。

1.OpenWebMath 网络数学数据集

发布机构: 多伦多大学、剑桥大学等

发布时间: 2023 年

预估大小: 44.21 GB

下载地址:https://go.hyper.ai/erQGZ

OpenWebMath 包含了来自互联网的大部分高质量数学文本。它是从 Common Crawl 上超过 200B 个 HTML 文件中过滤和提取的,最终形成一组 630 万个文档,总共包含 14.7B 个 tokens。

2.Ape210K 中国小学水平数学问题

发布机构: 猿辅导 AI Lab、西北大学

发布时间: 2020 年

预估大小: 78.43 MB

下载地址:https://go.hyper.ai/SL5to

Ape210K 是一个大规模且模板丰富的数学单词问题数据集,包含 210K 个中国小学水平的数学问题,每个问题都包含最佳答案和得出答案所需的方程式。

3.Proof-Pile-2数学数据集

发布机构: 普林斯顿大学

发布时间: 2023 年

预估大小: 47.57 GB

下载地址:https://go.hyper.ai/TXmiP

Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集,融合了科学论文、数学相关的网络内容和数学代码,其知识截止于 2023 年 4 月。

4.Orca-Math-200K 数学问题数据集

发布机构: 微软

发布时间: 2024 年

预估大小: 70.88 MB

下载地址:https://go.hyper.ai/o4pMG

Orca-Math-200K 是微软创建的高质量数学问题数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。

5.Mizar 数学数据集

发布机构: Mizar

发布时间: 2018 年

下载地址:https://go.hyper.ai/I8pi6

Mizar 是一个基于 Mizar 语言的数学形式化库,它是由许多作者和维护者多年创建修改而成的。目前为止,Mizar 语言系统已形成一个庞大的 Mizar Mathematical Library,它为今后讨论数学及其相关问题奠定了良好的基础。

6.Math23K 数学单词问题解决数据集

发布机构: Tencent AI Lab

发布时间: 2017 年

预估大小: 8.36 MB

下载地址:https://go.hyper.ai/2YsRR

Math23K 是为解决数学单词问题而创建的数据集,包含从互联网上爬取的 23,162 个中文问题。

7.MathVista 数学推理数据集

发布机构: 微软、华盛顿大学

发布时间: 2023 年

预估大小: 1.61 GB

下载地址:https://go.hyper.ai/GHNsf

MathVista 是视觉环境中的综合数学推理基准。它由三个新创建的数据集 IQTest 、 FunctionQA 和 PaperQA 组成,它们可以分别用于评估拼图测试图的逻辑推理、功能图的代数推理以及学术论文图的科学推理。

8.MetaMathQA 数学推理数据集

发布机构: 华为、剑桥大学

发布时间: 2023 年

预估大小: 84.34 MB

下载地址:https://go.hyper.ai/Vy2iw

MetaMathQA 是一个覆盖面广、质量高的数学推理数据集,由 395K 个大语言模型生成的正向逆向数学问答对组成。

9.AlgoPuzzleVQA 多模态算法谜题数据集

发布机构: 新加坡科技设计大学

发布时间: 2024 年

预估大小: 157.85 MB

下载地址:https://go.hyper.ai/mmzdn

该数据集包含 18 种不同的谜题,涵盖了诸如布尔逻辑、组合学、图论、优化、搜索等多样化的数学和算法主题。该数据集通过自动化的方式从人类编写的代码生成谜题,确保了数据集可以任意扩展推理复杂性和数据集大小。

10.TAL-SCQ5K 中文数学竞赛数据集

发布机构: 好未来

发布时间: 2023 年

预估大小: 11.4 MB

下载地址:https://go.hyper.ai/ZuYTB

11.NuminaMath-CoT 数学竞赛问题数据集

发布机构: AI-MO

发布时间: 2024 年

下载地址:https://go.hyper.ai/erKEF

该数据集是 AI-MO 于 2024 年提出,包含 860k+ 数学竞赛问题-解答对,每个解答都使用了思维链 (Chain of Thought, CoT) 推理模板。数据集的来源包括中国高中数学练习题、美国和国际数学奥林匹克竞赛题。数据主要收集自在线试卷 PDF 和数学讨论论坛。处理步骤包括 (a) 从原始 PDF 进行 OCR,(b) 分割成问题-解决方案对,© 翻译成英文,(d) 重新调整以生成 CoT 推理格式,以及 (e) 最终答案格式。


以上就是 HyperAI超神经为大家汇总的 10 个数学分类数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点

  • 收录 300+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

  • 17
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值