图像分类公开数据集信息汇总

在这里插入图片描述

一、前言

以下是对37个图像分类公开数据集的总结,分别图片数量,类别,以及包含图像内容的一些信息。旨在对于图像分类任务,当有模型在以下公开数据集上的精度评估数据,可以对比公开数据集和自己业务数据集的特点,模型选型时做一个参考,帮助选择更有利于自己业务数据集的模型,再进行调优可能效率更高。

如有遗漏,请留言。

二、数据集概述:

1. ImageNet 1K

  • 图片数量:约130万张训练图像,5万张验证图像,50,000张测试图像。
  • 类别:包含1000个类(1K)。
  • 图片内容:涵盖广泛类别,如动物、植物、工具、车辆等。
  • 图片大小:通常处理为224x224像素。
  • 格式:JPEG格式。
  • 用途:被广泛用于图像分类任务和预训练模型的基准测试【41†source】【42†source】。

2. Caltech-101

  • 图片数量:约9,000张。
  • 类别:101个物体类别(以及1个背景类别)。
  • 图片内容:每个类别包含约40到800张图像,涉及各种物体,如动物、工具、花卉等。
  • 图片大小:大多数图像的长或宽不超过300像素。
  • 格式:JPEG格式。

3. CIFAR-10

  • 图片数量:60,000张(50,000张训练图像,10,000张测试图像)。
  • 类别:10类,如飞机、汽车、鸟、猫等。
  • 图片内容:每张图像尺寸为32x32像素的彩色图像。
  • 格式:PNG格式。

4. CIFAR-100

  • 图片数量:60,000张(50,000张训练图像,10,000张测试图像)。
  • 类别:100类,涵盖更细致的类别,如鱼类、花卉等。
  • 图片大小:32x32像素。
  • 格式:PNG格式。

5. CLEVR Counts / CLEVR Distance

  • 图片数量:包含100,000张合成图像。
  • 内容:包含多物体场景,用于推理任务(如计算物体数量、测量物体之间的距离)。
  • 图片大小:320x240像素。
  • 格式:PNG格式。

6. Country211

  • 图片数量:约211,000张。
  • 类别:211个国家和地区。
  • 内容:图像涵盖了与各国相关的各种场景(如自然景观、建筑、标志性地点)。
  • 用途:用于地理定位任务和国家识别。

7. Describable Textures Dataset (DTD)

  • 图片数量:约5,640张。
  • 类别:47个纹理类别(如条纹、波浪、斑点)。
  • 内容:专注于纹理模式和视觉属性。
  • 用途:纹理分类、风格识别等。

8. EuroSAT

  • 图片数量:27,000张。
  • 类别:10类(如农田、森林、城市)。
  • 内容:卫星图像,基于 Sentinel-2 数据。
  • 图片大小:64x64像素。
  • 用途:遥感图像分类。

9. FGVC Aircraft

  • 图片数量:约10,000张。
  • 类别:102种飞机型号。
  • 内容:飞机图像,关注细粒度分类。
  • 用途:细粒度视觉分类(FGVC)任务。

10. Food-101

  • 图片数量:101,000张(每类1,000张)。
  • 类别:101种食物类别。
  • 内容:餐饮、菜肴图像(如披萨、寿司、汉堡)。
  • 用途:食品图像分类和识别。

11. GTSRB (German Traffic Sign Recognition Benchmark)

  • 图片数量:约51,000张。
  • 类别:43种交通标志。
  • 内容:德国交通标志图像。
  • 用途:自动驾驶、交通标志识别。

12. ImageNet Sketch

  • 图片数量:约50,000张。
  • 类别:ImageNet 1K 类别的草图版本。
  • 用途:用于测试模型的泛化能力(尤其是处理草图数据)。

13. ImageNet v2

  • 图片数量:10,000张。
  • 内容:ImageNet 1K 的验证集扩展。
  • 特点:新收集图像,用于评估泛化能力。

14. ImageNet-A

  • 图片数量:7,500张。
  • 特点:包含对抗样本和难分类的图像。
  • 用途:测试模型在困难场景中的鲁棒性。

15. ImageNet-O

  • 图片数量:约2,000张。
  • 特点:图像来自 ImageNet 类别之外,测试开放集性能。

16. ImageNet-R

  • 图片数量:30,000张。
  • 特点:风格化图像(如艺术、卡通)。
  • 用途:测试鲁棒性和风格转移泛化能力。

17. KITTI Vehicle Distance

  • 图片数量:约15,000张(从KITTI数据集中提取)。
  • 内容:自动驾驶场景中的车辆和距离估计。
  • 用途:车辆检测、自动驾驶感知。

18. MNIST

  • 图片数量:70,000张(60,000张训练,10,000张测试)。
  • 类别:10类(数字0-9)。
  • 图片大小:28x28像素的灰度图像。
  • 用途:手写数字识别基准测试。
    数据集特点(续):

19. ObjectNet

  • 图片数量:50,000张。
  • 类别:来自ImageNet 1K的大多数类别。
  • 特点:拍摄角度和背景多样,旨在评估模型在真实场景中的鲁棒性。
  • 用途:评估物体识别模型在非标准条件下的泛化能力。

20. Oxford Flowers-102

  • 图片数量:8,189张。
  • 类别:102种花卉类别。
  • 内容:高分辨率花卉图像。
  • 用途:细粒度分类、图像分割任务。

21. Oxford-IIIT Pet

  • 图片数量:7,349张。
  • 类别:37种宠物(猫和狗)品种。
  • 内容:宠物图像,包含边界框和分割标签。
  • 用途:物种分类、分割和检测任务。

22. Pascal VOC 2007

  • 图片数量:9,963张。
  • 类别:20个物体类别(如人、车、动物)。
  • 标注:提供分类、检测、分割标注。
  • 用途:目标检测和分割基准。

23. PatchCamelyon

  • 图片数量:327,680张。
  • 类别:2类(癌症和非癌症)。
  • 内容:病理学图像(来自Camelyon16)。
  • 用途:用于癌症检测和病理图像分类。

24. Rendered SST2

  • 图片数量:约70,000张(基于文本渲染)。
  • 类别:情感分类(正面、负面)。
  • 用途:情感分析任务。

25. RESISC45

  • 图片数量:31,500张。
  • 类别:45类遥感图像(如机场、河流、农田)。
  • 用途:遥感场景分类。

26. Stanford Cars

  • 图片数量:16,185张。
  • 类别:196种车款。
  • 内容:不同车款和车型的图像。
  • 用途:细粒度汽车分类任务。

27. STL-10

  • 图片数量:13,000张(训练集5,000张,测试集8,000张)。
  • 类别:10类。
  • 图片大小:96x96像素。
  • 用途:半监督学习基准。

28. SUN397

  • 图片数量:108,754张。
  • 类别:397类场景类别(如海滩、教室、森林)。
  • 用途:场景分类任务。

29. SVHN (Street View House Numbers)

  • 图片数量:超过600,000张。
  • 类别:10类(数字0-9)。
  • 内容:街景图像中的门牌号码。
  • 用途:数字识别。

30. Flickr30k

  • 图片数量:31,783张。
  • 内容:包含多种场景的图像,每张配有5条描述。
  • 用途:图像字幕生成、跨模态检索。

31. MSCOCO (Microsoft Common Objects in Context)

  • 图片数量:约330,000张。
  • 类别:80个对象类别。
  • 标注:包含边界框、分割、关键点和图像描述。
  • 用途:图像检测、分割、字幕生成。

32. WinoGAViL

  • 特点:语言推理数据集,针对视觉和语言组合任务。
  • 用途:测试模型在视觉语言推理中的理解能力。

33. iWildCam

  • 图片数量:大规模野生动物监控图像。
  • 类别:多种野生动物类别。
  • 用途:生态监测、物种分类。

34. Camelyon17

  • 图片数量:超过50,000张病理图像。
  • 内容:乳腺癌病理切片。
  • 用途:癌症检测,挑战在于分割和分类。

35. FMoW (Functional Map of the World)

  • 图片数量:超过1百万张。
  • 类别:63种场景(如机场、港口)。
  • 内容:全球卫星图像。
  • 用途:遥感分类和变化检测。

36. Dollar Street

  • 内容:世界各地日常生活图像,展示不同收入水平下的家庭和生活。
  • 用途:社会研究、视觉数据分析。

37. GeoDE

  • 特点:地理和环境数据集,包含自然和人文场景图像。
  • 用途:地理推理、环境感知任务。
    如需进一步深入了解某个数据集,请告诉我!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas_Cai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值