CVPR 2024 数据集整理

最新推荐文章于 2025-04-14 17:04:46 发布

江海寄

最新推荐文章于 2025-04-14 17:04:46 发布

阅读量2k

点赞数 12

文章标签：计算机视觉机器学习目标检测

本文链接：https://blog.csdn.net/qq_42854305/article/details/142918391

版权

CVPR2024 数据集整理

自然图像数据集

RepViT: Revisiting Mobile CNN From ViT Perspective

Paper: https://arxiv.org/abs/2307.09283
Code: https://github.com/THU-MIG/RepViT

该论文使用的数据集包括ImageNet-1K、MS COCO 2017、ADE20K、BSDS500以及SAM - 1B数据集的部分数据，具体介绍如下：

1.ImageNet-1K
- 介绍：是一个大规模的层次化图像数据库，用于图像分类任务。它包含了1000个不同的类别，大约有120万张训练图像和5万张验证图像。
- 在论文中的应用：作者在图像分类实验中使用了ImageNet - 1K数据集，对模型进行训练和测试，图像尺寸为224×224。通过在该数据集上的实验，验证了RepViT模型在不同模型大小下的性能，包括与其他先进模型对比的准确率和延迟等指标。
2.MS COCO 2017
- 介绍：是一个用于目标检测、分割和图像字幕等计算机视觉任务的常用数据集。它包含了超过118,000张图像，其中有80个类别被标注了对象的位置、大小和类别信息，同时还有部分图像进行了实例分割和语义分割的标注。
  
  在论文中的应用：作者将RepViT集成到Mask - RCNN框架中，在MS COCO 2017数据集上进行了对象检测和实例分割实验，验证了RepViT在这些任务中的性能，包括在不同模型大小下的延迟、 $AP_{box}$ 和 $AP_{mask}$ 等指标。
3.ADE20K
- 介绍：是一个用于语义分割研究的数据集，它包含了20,000张图像，涵盖了150个不同的语义类别，这些图像来自于各种室内和室外场景，具有丰富的语义信息和复杂的场景结构。
- 在论文中的应用：作者将RepViT集成到Semantic FPN框架中，在ADE20K数据集上进行语义分割实验，以验证RepViT在该任务上的性能，通过不同模型大小下的mIoU - 延迟权衡来体现。
4.BSDS500
- 介绍：是一个用于边缘检测和图像分割研究的标准数据集，它包含了500张自然图像以及对应的人工标注的边缘和区域分割信息。
- 在论文中的应用：作者使用BSDS500数据集对RepViT - SAM模型进行零 - shot边缘检测性能评估。
5.SAM - 1B数据集

介绍：是Segment Anything Model（SAM）相关研究使用的数据集，包含了大量的图像和对应的标注信息，用于训练和评估SAM模型及其相关变体。
- 在论文中的应用：作者在训练RepViT - SAM模型时，使用了SAM - 1B数据集中1%的数据，以展示RepViT在移动设备上进行分割任务的性能。

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

Paper: https://arxiv.org/abs/2311.17132
Code: https://github.com/DaiShiResearch/TransNeXt
- ImageNet-1K -
  
  介绍：一个大规模的图像数据库，包含1000个不同的类别，大约有128万张训练图像和5万张验证图像。它是图像分类任务中广泛使用的基准数据集，用于训练和评估模型的图像识别能力。
  
  在论文中的应用：作者的模型在ImageNet-1K数据集上进行训练，遵循PVTv2的训练策略，并使用自动混合精度（AMP）在多个GPU上训练300个epochs。通过在该数据集上的训练和评估，展示了模型在图像分类任务上的性能，包括不同模型变体（如TransNeXt-Micro、TransNeXt-Tiny、TransNeXt-Small/Base等）的准确率结果。
- ImageNet-C
  - 介绍：是对ImageNet-1K验证集应用算法扭曲得到的测试集，用于评估模型在面对图像常见损坏和扰动时的鲁棒性。
  - 在论文中的应用：作为评估模型鲁棒性的测试集之一，与其他鲁棒性测试集（如ImageNet-A、ImageNet-R、ImageNet-Sketch、ImageNet-V2等）一起，用于全面评估模型在不同类型数据和干扰下的性能表现。
  ImageNet-A
  - 介绍：包含对抗样本的测试集，用于测试模型对对抗攻击的鲁棒性。
  - 在论文中的应用：用于评估模型的鲁棒性，作者的模型在该测试集上展示了随着模型规模增大而具有的显著优势，例如在不同分辨率下，TransNeXt的不同变体与其他模型相比在准确率上有显著提高，体现了模型在对抗攻击下的良好性能。
  ImageNet-R
  - 介绍：是一个扩展测试集，包含ResNet50未能正确分类的样本，用于进一步评估模型在复杂和困难样本上的分类能力和鲁棒性。
  - 在论文中的应用：作为模型鲁棒性评估的一部分，与其他测试集共同验证模型在不同类型数据上的性能表现。
  ImageNet-Sketch
  - 介绍：包含手绘图像的测试集，用于测试模型在不同图像风格和表示形式下的泛化能力。
  - 在论文中的应用：用于评估模型的泛化能力和鲁棒性，与其他测试集一起展示模型在各种数据类型下的性能。
  ImageNet-V2
  - 介绍：采用与ImageNet-1K相同采样策略的扩展测试集，用于评估模型在类似分布数据上的性能和泛化能力。
  - 在论文中的应用：作为评估模型性能和泛化能力的测试集之一，与ImageNet-1K训练集采用相同采样策略，有助于更全面地了解模型在不同数据分布下的表现。
  COCO
  - 介绍：Microsoft Common Objects in Context数据集，是一个用于目标检测、分割和图像字幕等任务的大规模数据集。它包含大约80个类别，超过20万张标注图像，标注信息丰富，包括目标的位置、类别以及分割掩码等。
  - 在论文中的应用：作者使用Mask R-CNN和DINO检测头在COCO数据集上评估了ImageNet-1K预训练的TransNeXt模型在目标检测和实例分割任务上的性能，展示了模型在该数据集上的优越性。
  ADE20K
  - 介绍：一个用于语义分割任务的数据集，包含20,000张图像，涵盖了各种室内和室外场景，标注了150个不同的语义类别。
  - - 在论文中的应用：作者使用UperNet和Mask2Former方法在ADE20K数据集上训练和评估了ImageNet-1K预训练的TransNeXt模型在语义分割任务上的性能，证明了模型在不同尺寸下均优于先前方法的性能。

其他分割数据集

Pascal VOC

任务: 包括图像分类、对象检测和语义分割。
规模: 约1.1万张图片，涵盖20类物体。
经典Backbone: FCN, SegNet, DeepLab等
数据集链接: Pascal VOC官网

Cityscapes

任务: 主要用于城市街道场景下的语义分割，适合自动驾驶等任务。
规模: 5,000张精细标注图像，涵盖30个类别。
经典Backbone: PSPNet, DeepLab, SegFormer等
数据集链接: Cityscapes官网

其他分类数据集

MNIST：

**规模：**包含60,000个训练样本和10,000个测试样本，每个样本是28x28像素的手写数字灰度图像，数字范围从0到9。

应用场景：

手写数字识别：用于开发和评估图像识别算法。
机器学习入门：作为教学和入门示例，帮助理解模型如何从数据中学习。
基准测试：作为评估新型机器学习算法性能的标准数据集。

获取方式：

官网下载：可以从http://yann.lecun.com/exdb/mnist/直接下载数据集的各个部分。
编程库：在机器学习和深度学习框架中，如TensorFlow和PyTorch，通常内置了数据集加载功能，可以直接通过代码加载。

异常检测数据集

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection

Paper: https://arxiv.org/abs/2310.12790
Code: https://github.com/mala-lab/AHL
数据集介绍：

1. MVTec AD
- 是一个广泛使用的数据集，用于工业检测应用中异常检测方法的性能基准测试。
- 包含超过 5000 张图像，分为 15 个对象和纹理类别。
- 每个类别都包含无异常的训练集以及包含有缺陷和无缺陷图像的测试集。
- 原始的正常样本被划分为训练集和测试集，其他八个数据集的正常样本则按 3:1 的比例随机划分为训练集和测试集。
2. AITEX
- 是一个纺织面料数据库。
- 包含 7 种不同面料的 245 张图像，其中 140 张无缺陷图像（每种面料 20 张），105 张有各种缺陷的图像。
- 论文：Javier Silvestre - Blanes, Teresa Albero - Albero, Ignacio Miralles, Rubén Párez - Llorens, and Jorge Moreno. A public fabric database for defect detection methods and results. Autex Research Journal, 19(4):363–374, 2019.
3. SDD
- 是在受控工业环境中采集的图像集合，以有缺陷的生产物品为对象。
- 包括 52 张有可见缺陷的图像和 347 张无缺陷的产品图像。
- 论文：Domen Tabernik, Samo ˇSela, Jure Skvarˇc, and Danijel Skoˇcaj. Segmentation - based deep - learning approach for surface - defect detection. Journal of Intelligent Manufacturing, 31(3):759–776, 2020.
4. ELPV
- 基本信息是从光伏模块中提取的 2624 张高分辨率灰度太阳能电池图像的集合。
- 这些图像来自 44 个不同的太阳能模块，包括已知会降低太阳能模块功率效率的内在和外在缺陷。
5. Optical
- 是一个为模拟现实世界工业检测任务中的缺陷检测而创建的通用数据集。
- 包含十个独立的子集，前六个子集用于算法开发，后四个子集用于评估算法性能。
6. Mastcam
- 是一个新奇检测数据集，由安装在火星探测车上的多光谱成像系统采集的地质图像构建而成。
- 包括典型图像以及 11 种新的地质类别的图像，每张图像都包含短波长（彩色）通道和长波长（灰度）通道。
7. BrainMRI
- 是一个用于脑肿瘤检测的数据集，来自脑部的磁共振成像（MRI）。
8. HeadCT
- 是一个数据集，包含 100 张正常头部 CT 切片和 100 张有脑出血的切片，不区分出血类型，每张切片来自不同的人。
9. Hyper - Kvasir
- 是一个大规模的开放式胃肠道数据集，在真实的胃肠镜和结肠镜检查过程中收集。
- 由四个不同部分组成，包括标记图像数据、未标记图像数据、分割图像数据和注释视频数据。