CVPR 2024 数据集整理

CVPR2024 数据集整理

自然图像数据集

RepViT: Revisiting Mobile CNN From ViT Perspective

  • Paper: https://arxiv.org/abs/2307.09283

  • Code: https://github.com/THU-MIG/RepViT

    该论文使用的数据集包括ImageNet-1K、MS COCO 2017、ADE20K、BSDS500以及SAM - 1B数据集的部分数据,具体介绍如下:

    1.ImageNet-1K

    • 介绍:是一个大规模的层次化图像数据库,用于图像分类任务。它包含了1000个不同的类别,大约有120万张训练图像和5万张验证图像。
    • 在论文中的应用:作者在图像分类实验中使用了ImageNet - 1K数据集,对模型进行训练和测试,图像尺寸为224×224。通过在该数据集上的实验,验证了RepViT模型在不同模型大小下的性能,包括与其他先进模型对比的准确率和延迟等指标。

    2.MS COCO 2017

    • 介绍:是一个用于目标检测、分割和图像字幕等计算机视觉任务的常用数据集。它包含了超过118,000张图像,其中有80个类别被标注了对象的位置、大小和类别信息,同时还有部分图像进行了实例分割和语义分割的标注。

      在论文中的应用:作者将RepViT集成到Mask - RCNN框架中,在MS COCO 2017数据集上进行了对象检测和实例分割实验,验证了RepViT在这些任务中的性能,包括在不同模型大小下的延迟、 A P b o x AP_{box} APbox A P m a s k AP_{mask} APmask等指标。

    3.ADE20K

    • 介绍:是一个用于语义分割研究的数据集,它包含了20,000张图像,涵盖了150个不同的语义类别,这些图像来自于各种室内和室外场景,具有丰富的语义信息和复杂的场景结构。
    • 在论文中的应用:作者将RepViT集成到Semantic FPN框架中,在ADE20K数据集上进行语义分割实验,以验证RepViT在该任务上的性能,通过不同模型大小下的mIoU - 延迟权衡来体现。

    4.BSDS500

    • 介绍:是一个用于边缘检测和图像分割研究的标准数据集,它包含了500张自然图像以及对应的人工标注的边缘和区域分割信息。
    • 在论文中的应用:作者使用BSDS500数据集对RepViT - SAM模型进行零 - shot边缘检测性能评估。

    5.SAM - 1B数据集

    介绍:是Segment Anything Model(SAM)相关研究使用的数据集,包含了大量的图像和对应的标注信息,用于训练和评估SAM模型及其相关变体。

    • 在论文中的应用:作者在训练RepViT - SAM模型时,使用了SAM - 1B数据集中1%的数据,以展示RepViT在移动设备上进行分割任务的性能。

TransNeXt: Robust Foveal Visual Perception for Vision Transformers

  • Paper: https://arxiv.org/abs/2311.17132

  • Code: https://github.com/DaiShiResearch/TransNeXt

    • ImageNet-1K -

      介绍:一个大规模的图像数据库,包含1000个不同的类别,大约有128万张训练图像和5万张验证图像。它是图像分类任务中广泛使用的基准数据集,用于训练和评估模型的图像识别能力。

      在论文中的应用:作者的模型在ImageNet-1K数据集上进行训练,遵循PVTv2的训练策略,并使用自动混合精度(AMP)在多个GPU上训练300个epochs。通过在该数据集上的训练和评估,展示了模型在图像分类任务上的性能,包括不同模型变体(如TransNeXt-Micro、TransNeXt-Tiny、TransNeXt-Small/Base等)的准确率结果。

    • ImageNet-C

      • 介绍:是对ImageNet-1K验证集应用算法扭曲得到的测试集,用于评估模型在面对图像常见损坏和扰动时的鲁棒性。
      • 在论文中的应用:作为评估模型鲁棒性的测试集之一,与其他鲁棒性测试集(如ImageNet-A、ImageNet-R、ImageNet-Sketch、ImageNet-V2等)一起,用于全面评估模型在不同类型数据和干扰下的性能表现。

      ImageNet-A

      • 介绍:包含对抗样本的测试集,用于测试模型对对抗攻击的鲁棒性。
      • 在论文中的应用:用于评估模型的鲁棒性,作者的模型在该测试集上展示了随着模型规模增大而具有的显著优势,例如在不同分辨率下,TransNeXt的不同变体与其他模型相比在准确率上有显著提高,体现了模型在对抗攻击下的良好性能。

      ImageNet-R

      • 介绍:是一个扩展测试集,包含ResNet50未能正确分类的样本,用于进一步评估模型在复杂和困难样本上的分类能力和鲁棒性。
      • 在论文中的应用:作为模型鲁棒性评估的一部分,与其他测试集共同验证模型在不同类型数据上的性能表现。

      ImageNet-Sketch

      • 介绍:包含手绘图像的测试集,用于测试模型在不同图像风格和表示形式下的泛化能力。
      • 在论文中的应用:用于评估模型的泛化能力和鲁棒性,与其他测试集一起展示模型在各种数据类型下的性能。

      ImageNet-V2

      • 介绍:采用与ImageNet-1K相同采样策略的扩展测试集,用于评估模型在类似分布数据上的性能和泛化能力。
      • 在论文中的应用:作为评估模型性能和泛化能力的测试集之一,与ImageNet-1K训练集采用相同采样策略,有助于更全面地了解模型在不同数据分布下的表现。

      COCO

      • 介绍:Microsoft Common Objects in Context数据集,是一个用于目标检测、分割和图像字幕等任务的大规模数据集。它包含大约80个类别,超过20万张标注图像,标注信息丰富,包括目标的位置、类别以及分割掩码等。
      • 在论文中的应用:作者使用Mask R-CNN和DINO检测头在COCO数据集上评估了ImageNet-1K预训练的TransNeXt模型在目标检测和实例分割任务上的性能,展示了模型在该数据集上的优越性。

      ADE20K

      • 介绍:一个用于语义分割任务的数据集,包含20,000张图像,涵盖了各种室内和室外场景,标注了150个不同的语义类别。
        • 在论文中的应用:作者使用UperNet和Mask2Former方法在ADE20K数据集上训练和评估了ImageNet-1K预训练的TransNeXt模型在语义分割任务上的性能,证明了模型在不同尺寸下均优于先前方法的性能。

其他分割数据集

Pascal VOC

  • 任务: 包括图像分类、对象检测和语义分割。
  • 规模: 约1.1万张图片,涵盖20类物体。
  • 经典Backbone: FCN, SegNet, DeepLab等
  • 数据集链接: Pascal VOC官网

Cityscapes

  • 任务: 主要用于城市街道场景下的语义分割,适合自动驾驶等任务。
  • 规模: 5,000张精细标注图像,涵盖30个类别。
  • 经典Backbone: PSPNet, DeepLab, SegFormer等
  • 数据集链接: Cityscapes官网

其他分类数据集

MNIST

  • **规模:**包含60,000个训练样本和10,000个测试样本,每个样本是28x28像素的手写数字灰度图像,数字范围从0到9。

应用场景

  • 手写数字识别:用于开发和评估图像识别算法。
  • 机器学习入门:作为教学和入门示例,帮助理解模型如何从数据中学习。
  • 基准测试:作为评估新型机器学习算法性能的标准数据集。

获取方式

  • 官网下载:可以从http://yann.lecun.com/exdb/mnist/直接下载数据集的各个部分。
  • 编程库:在机器学习和深度学习框架中,如TensorFlow和PyTorch,通常内置了数据集加载功能,可以直接通过代码加载。

异常检测数据集

Anomaly Heterogeneity Learning for Open-set Supervised Anomaly Detection

  • Paper: https://arxiv.org/abs/2310.12790

  • Code: https://github.com/mala-lab/AHL

  • 数据集介绍:

    1. MVTec AD

    • 是一个广泛使用的数据集,用于工业检测应用中异常检测方法的性能基准测试。

    • 包含超过 5000 张图像,分为 15 个对象和纹理类别。

    • 每个类别都包含无异常的训练集以及包含有缺陷和无缺陷图像的测试集。

    • 原始的正常样本被划分为训练集和测试集,其他八个数据集的正常样本则按 3:1 的比例随机划分为训练集和测试集。

    2. AITEX

    • 是一个纺织面料数据库。

    • 包含 7 种不同面料的 245 张图像,其中 140 张无缺陷图像(每种面料 20 张),105 张有各种缺陷的图像。

    • 论文:Javier Silvestre - Blanes, Teresa Albero - Albero, Ignacio Miralles, Rubén Párez - Llorens, and Jorge Moreno. A public fabric database for defect detection methods and results. Autex Research Journal, 19(4):363–374, 2019.

    3. SDD

    • 是在受控工业环境中采集的图像集合,以有缺陷的生产物品为对象。

    • 包括 52 张有可见缺陷的图像和 347 张无缺陷的产品图像。

    • 论文:Domen Tabernik, Samo ˇSela, Jure Skvarˇc, and Danijel Skoˇcaj. Segmentation - based deep - learning approach for surface - defect detection. Journal of Intelligent Manufacturing, 31(3):759–776, 2020.

    4. ELPV

    • 基本信息是从光伏模块中提取的 2624 张高分辨率灰度太阳能电池图像的集合。
    • 这些图像来自 44 个不同的太阳能模块,包括已知会降低太阳能模块功率效率的内在和外在缺陷。

    5. Optical

    • 是一个为模拟现实世界工业检测任务中的缺陷检测而创建的通用数据集。
    • 包含十个独立的子集,前六个子集用于算法开发,后四个子集用于评估算法性能。

    6. Mastcam

    • 是一个新奇检测数据集,由安装在火星探测车上的多光谱成像系统采集的地质图像构建而成。
    • 包括典型图像以及 11 种新的地质类别的图像,每张图像都包含短波长(彩色)通道和长波长(灰度)通道。

    7. BrainMRI

    • 是一个用于脑肿瘤检测的数据集,来自脑部的磁共振成像(MRI)。

    8. HeadCT

    • 是一个数据集,包含 100 张正常头部 CT 切片和 100 张有脑出血的切片,不区分出血类型,每张切片来自不同的人。

    9. Hyper - Kvasir

    • 是一个大规模的开放式胃肠道数据集,在真实的胃肠镜和结肠镜检查过程中收集。

    • 由四个不同部分组成,包括标记图像数据、未标记图像数据、分割图像数据和注释视频数据。

### CVPR 2024 论文代码实现与复现 CVPR(Computer Vision and Pattern Recognition)作为计算机视觉领域的重要会议之一,每年都会发布大量高质量的研究成果及其对应的代码实现。对于CVPR 2024中的论文代码实现及复现方法,可以遵循以下策略来获取相关信息。 #### 官方资源 通常情况下,CVPR官方会提供一个集中展示所有被接收论文及相关材料的页面。该页面不仅包含了每篇论文的具体链接,还可能附带作者公开的源码仓库地址。例如,在过去的版本中,许多研究团队会在GitHub上托管他们的项目,并通过CVPR官网或者arXiv等平台分享这些资源[^1]。 #### 开放访问库 除了直接查阅CVPR官方网站外,还可以利用一些专门收集学术界开源项目的网站如Papers With Code (paperswithcode.com),它按主题分类整理了众多顶级会议上发表的文章连同其实验室提供的具体实施细节和技术文档一起列出供研究人员参考学习[^2]。 #### 特定技术方向探索 如果关注某个特别的技术话题比如高分辨率三维输出,则可参照《Octree Generating Networks: Efficient Convolutional Architectures for High-resolution 3D Outputs》这类专注于特定应用场景下的网络结构设计思路来进行深入理解并尝试自行构建类似的解决方案框架;而对于多智能体部分可观测网格环境模拟等问题则可以从《POGEMA: Partially Observable Grid Environment for Multiple Agents》得到启发去开发相应的仿真工具包[^3]。 #### 实践建议 当试图重现某项研究成果时需要注意几个方面:首先是确保使用的数据集完全一致或者是经过适当预处理后的替代品;其次是仔细阅读原作给出的方法论描述以及补充说明文件以便正确配置实验参数设置;最后一点就是积极与其他对该课题感兴趣的同行交流探讨遇到困难之处共同进步成长[^4]。 另外值得注意的是关于共享特征这一概念,《共享特征。在上面,为了简单起见,我们不共享RPN和Fast R-CNN之间的特征...》提到通过合理安排不同模块间的信息传递机制能够有效提升模型性能表现同时减少计算开销成本[^5]。 ```python import torch from torchvision import models # 加载预训练模型 model = models.resnet50(pretrained=True) # 修改最后一层全连接层适应新任务类别数 num_ftrs = model.fc.in_features model.fc = torch.nn.Linear(num_ftrs, num_classes) ``` 上述代码片段展示了如何基于PyTorch调整ResNet架构用于自定义图像分类任务的一个基本例子。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值