1. MNIST
手写数字识别数据集,包含60,000个训练样本和10,000个测试样本,每个样本是28x28的手写数字图片。
2. Fashion-MNIST
Zalando的服装分类数据集,包含60,000个训练样本和10,000个测试样本,每个样本是28x28的服装图片。
3. CIFAR-10/100
包含60,000个32x32的彩色图片,分10个类别和100个类别。
4. ImageNet
大规模的图像分类数据集,包含1000个类别,120万张高质量的图片。
5. COCO
大型对象检测、分割、关键点检测等图像理解任务数据集,包含330K张图片,80个类别。6. Pascal VOC:图像分类、目标检测、分割数据集,包含20个类别,1.5万张全彩图片。
7. Penn Treebank
语言模型数据集,包含90万词的训练样本,可用于NLP任务。
8. Reddit Comments
大型的NLP数据集,包含超过4亿条Reddit评论数据,可用于训练语言模型等。
9. Amazon Reviews
来自亚马逊的产品评论数据集,包含数十亿条评论,用于NLP与情感分析。
10. 20 Newsgroups
新闻分类数据集,包含20个类别,2万条新闻文本数据,用于文本分类与NLP任务。
除此之外,还有Caltech-101、Caltech-256、Stanford Dogs、Flowers、WikiQA、SQuAD等其他图像分类、目标检测、语言理解等数据集。