最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类(资源)

本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源。

今天,构造AI或机器学习系统比以往任何时候都更加容易。我们有许多开源的最前沿的工具,如TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力,这意味着你可以悠哉地一边喝着咖啡一边用 laptop 训练模型。

虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得益于各大研究机构和企业的辛苦工作,我们有机会获取大量有标签和注释的数据。这些研究机构和企业也认识到,数据的民主化是加速 AI 发展的一个必要步骤。

然而,大多数包含机器学习或 AI 的产品都严重依赖非公开的专有数据集。因此,很难判定哪些公开数据集有用。

重要的是,在数据集上表现得性能良好并不能保证机器学习系统在真实的产品场景中表现良好。许多搞 AI 的人忘记了构建新 AI 解决方案或开发产品的最难的部分不是 AI 本身或者算法,而是数据的收集和标记。标准数据集可以用于验证模型,或作为构建更加定制化的解决方案的一个好的起点。

以下是我们精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集。

标签解释

这里写图片描述

【经典】这些是在 AI 领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。
【有用】这些是更加接近现实世界的、精心设计的数据集。而且,这些数据集通常在产品和研发两方面都有用。
【学术】这些是在机器学习和 AI 的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。
【陈旧】这些数据集,无论是否实用,已经有相当长历史了。

计算机视觉

【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,图像大小为25x25的B&W手写数字,但在 MNIST 上性能良好,并不意味着模型本身很好。

地址:http://pjreddie.com/projects/mnist-in-csv/

【经典、陈旧】CIFAR 10 & CIFAR 100:32x32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个类很相似。

地址:http://image-net.org/

LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。

地址:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值