文章目录
- 一、前言
- 二、数据集概述:
- 1. ImageNet 1K
- 2. Caltech-101
- 3. CIFAR-10
- 4. CIFAR-100
- 5. CLEVR Counts / CLEVR Distance
- 6. Country211
- 7. Describable Textures Dataset (DTD)
- 8. EuroSAT
- 9. FGVC Aircraft
- 10. Food-101
- 11. GTSRB (German Traffic Sign Recognition Benchmark)
- 12. ImageNet Sketch
- 13. ImageNet v2
- 14. ImageNet-A
- 15. ImageNet-O
- 16. ImageNet-R
- 17. KITTI Vehicle Distance
- 18. MNIST
- 19. ObjectNet
- 20. Oxford Flowers-102
- 21. Oxford-IIIT Pet
- 22. Pascal VOC 2007
- 23. PatchCamelyon
- 24. Rendered SST2
- 25. RESISC45
- 26. Stanford Cars
- 27. STL-10
- 28. SUN397
- 29. SVHN (Street View House Numbers)
- 30. Flickr30k
- 31. MSCOCO (Microsoft Common Objects in Context)
- 32. WinoGAViL
- 33. iWildCam
- 34. Camelyon17
- 35. FMoW (Functional Map of the World)
- 36. Dollar Street
- 37. GeoDE
一、前言
以下是对37个图像分类公开数据集的总结,分别图片数量,类别,以及包含图像内容的一些信息。旨在对于图像分类任务,当有模型在以下公开数据集上的精度评估数据,可以对比公开数据集和自己业务数据集的特点,模型选型时做一个参考,帮助选择更有利于自己业务数据集的模型,再进行调优可能效率更高。
如有遗漏,请留言。
二、数据集概述:
1. ImageNet 1K
- 图片数量:约130万张训练图像,5万张验证图像,50,000张测试图像。
- 类别:包含1000个类(1K)。
- 图片内容:涵盖广泛类别,如动物、植物、工具、车辆等。
- 图片大小:通常处理为224x224像素。
- 格式:JPEG格式。
- 用途:被广泛用于图像分类任务和预训练模型的基准测试【41†source】【42†source】。
2. Caltech-101
- 图片数量:约9,000张。
- 类别:101个物体类别(以及1个背景类别)。
- 图片内容:每个类别包含约40到800张图像,涉及各种物体,如动物、工具、花卉等。
- 图片大小:大多数图像的长或宽不超过300像素。
- 格式:JPEG格式。
3. CIFAR-10
- 图片数量:60,000张(50,000张训练图像,10,000张测试图像)。
- 类别:10类,如飞机、汽车、鸟、猫等。
- 图片内容:每张图像尺寸为32x32像素的彩色图像。
- 格式:PNG格式。
4. CIFAR-100
- 图片数量:60,000张(50,000张训练图像,10,000张测试图像)。
- 类别:100类,涵盖更细致的类别,如鱼类、花卉等。
- 图片大小:32x32像素。
- 格式:PNG格式。
5. CLEVR Counts / CLEVR Distance
- 图片数量:包含100,000张合成图像。
- 内容:包含多物体场景,用于推理任务(如计算物体数量、测量物体之间的距离)。
- 图片大小:320x240像素。
- 格式:PNG格式。
6. Country211
- 图片数量:约211,000张。
- 类别:211个国家和地区。
- 内容:图像涵盖了与各国相关的各种场景(如自然景观、建筑、标志性地点)。
- 用途:用于地理定位任务和国家识别。
7. Describable Textures Dataset (DTD)
- 图片数量:约5,640张。
- 类别:47个纹理类别(如条纹、波浪、斑点)。
- 内容:专注于纹理模式和视觉属性。
- 用途:纹理分类、风格识别等。
8. EuroSAT
- 图片数量:27,000张。
- 类别:10类(如农田、森林、城市)。
- 内容:卫星图像,基于 Sentinel-2 数据。
- 图片大小:64x64像素。
- 用途:遥感图像分类。
9. FGVC Aircraft
- 图片数量:约10,000张。
- 类别:102种飞机型号。
- 内容:飞机图像,关注细粒度分类。
- 用途:细粒度视觉分类(FGVC)任务。
10. Food-101
- 图片数量:101,000张(每类1,000张)。
- 类别:101种食物类别。
- 内容:餐饮、菜肴图像(如披萨、寿司、汉堡)。
- 用途:食品图像分类和识别。
11. GTSRB (German Traffic Sign Recognition Benchmark)
- 图片数量:约51,000张。
- 类别:43种交通标志。
- 内容:德国交通标志图像。
- 用途:自动驾驶、交通标志识别。
12. ImageNet Sketch
- 图片数量:约50,000张。
- 类别:ImageNet 1K 类别的草图版本。
- 用途:用于测试模型的泛化能力(尤其是处理草图数据)。
13. ImageNet v2
- 图片数量:10,000张。
- 内容:ImageNet 1K 的验证集扩展。
- 特点:新收集图像,用于评估泛化能力。
14. ImageNet-A
- 图片数量:7,500张。
- 特点:包含对抗样本和难分类的图像。
- 用途:测试模型在困难场景中的鲁棒性。
15. ImageNet-O
- 图片数量:约2,000张。
- 特点:图像来自 ImageNet 类别之外,测试开放集性能。
16. ImageNet-R
- 图片数量:30,000张。
- 特点:风格化图像(如艺术、卡通)。
- 用途:测试鲁棒性和风格转移泛化能力。
17. KITTI Vehicle Distance
- 图片数量:约15,000张(从KITTI数据集中提取)。
- 内容:自动驾驶场景中的车辆和距离估计。
- 用途:车辆检测、自动驾驶感知。
18. MNIST
- 图片数量:70,000张(60,000张训练,10,000张测试)。
- 类别:10类(数字0-9)。
- 图片大小:28x28像素的灰度图像。
- 用途:手写数字识别基准测试。
数据集特点(续):
19. ObjectNet
- 图片数量:50,000张。
- 类别:来自ImageNet 1K的大多数类别。
- 特点:拍摄角度和背景多样,旨在评估模型在真实场景中的鲁棒性。
- 用途:评估物体识别模型在非标准条件下的泛化能力。
20. Oxford Flowers-102
- 图片数量:8,189张。
- 类别:102种花卉类别。
- 内容:高分辨率花卉图像。
- 用途:细粒度分类、图像分割任务。
21. Oxford-IIIT Pet
- 图片数量:7,349张。
- 类别:37种宠物(猫和狗)品种。
- 内容:宠物图像,包含边界框和分割标签。
- 用途:物种分类、分割和检测任务。
22. Pascal VOC 2007
- 图片数量:9,963张。
- 类别:20个物体类别(如人、车、动物)。
- 标注:提供分类、检测、分割标注。
- 用途:目标检测和分割基准。
23. PatchCamelyon
- 图片数量:327,680张。
- 类别:2类(癌症和非癌症)。
- 内容:病理学图像(来自Camelyon16)。
- 用途:用于癌症检测和病理图像分类。
24. Rendered SST2
- 图片数量:约70,000张(基于文本渲染)。
- 类别:情感分类(正面、负面)。
- 用途:情感分析任务。
25. RESISC45
- 图片数量:31,500张。
- 类别:45类遥感图像(如机场、河流、农田)。
- 用途:遥感场景分类。
26. Stanford Cars
- 图片数量:16,185张。
- 类别:196种车款。
- 内容:不同车款和车型的图像。
- 用途:细粒度汽车分类任务。
27. STL-10
- 图片数量:13,000张(训练集5,000张,测试集8,000张)。
- 类别:10类。
- 图片大小:96x96像素。
- 用途:半监督学习基准。
28. SUN397
- 图片数量:108,754张。
- 类别:397类场景类别(如海滩、教室、森林)。
- 用途:场景分类任务。
29. SVHN (Street View House Numbers)
- 图片数量:超过600,000张。
- 类别:10类(数字0-9)。
- 内容:街景图像中的门牌号码。
- 用途:数字识别。
30. Flickr30k
- 图片数量:31,783张。
- 内容:包含多种场景的图像,每张配有5条描述。
- 用途:图像字幕生成、跨模态检索。
31. MSCOCO (Microsoft Common Objects in Context)
- 图片数量:约330,000张。
- 类别:80个对象类别。
- 标注:包含边界框、分割、关键点和图像描述。
- 用途:图像检测、分割、字幕生成。
32. WinoGAViL
- 特点:语言推理数据集,针对视觉和语言组合任务。
- 用途:测试模型在视觉语言推理中的理解能力。
33. iWildCam
- 图片数量:大规模野生动物监控图像。
- 类别:多种野生动物类别。
- 用途:生态监测、物种分类。
34. Camelyon17
- 图片数量:超过50,000张病理图像。
- 内容:乳腺癌病理切片。
- 用途:癌症检测,挑战在于分割和分类。
35. FMoW (Functional Map of the World)
- 图片数量:超过1百万张。
- 类别:63种场景(如机场、港口)。
- 内容:全球卫星图像。
- 用途:遥感分类和变化检测。
36. Dollar Street
- 内容:世界各地日常生活图像,展示不同收入水平下的家庭和生活。
- 用途:社会研究、视觉数据分析。
37. GeoDE
- 特点:地理和环境数据集,包含自然和人文场景图像。
- 用途:地理推理、环境感知任务。
如需进一步深入了解某个数据集,请告诉我!