我们按照应用领域将AI的数据集分为三类:计算机视觉、自然语言处理、语音、推荐和排序系统、地理空间数据
1. 计算机视觉
1.1 MNIST
- 基本描述:包含 60000 张黑白手写数字的图片;
- 数据大小:每张图片25*25;
- 评价:最常用的完整性检查数据集;
- 特征:学术、经典、陈旧;
地址:MNIST in CSV
1.2 CIFAR 10 & CIFAR 100
- 基本描述:彩色图像数据集;
- 数据大小:每张图片32*32;
- 评价:虽然不常用,但可用于完整性检查;
- 特征:经典、陈旧;
- 地址:Computer Science~kriz/cifar.html
1.3 ImageNet
- 基本描述:彩色图像数据集;
- 数据大小:每张图片;
- 评价:新算法实际上使用的图像数据集,很多图像 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个类很相似;
- 特征:有用、学术、经典;
- 地址:ImageNet