目标检测2022最新进展

前言

之前目标检测综述一文中详细介绍了目标检测相关的知识,本篇博客作为扩展补充,记录目前(2022)目标检测的最新进展,主要是在coco test-dev上霸榜且知名度较广的目标检测网络。具体详情可参考相关论文或者代码。

Swim Transformer V2

论文地址:Swin Transformer V2: Scaling Up Capacity and Resolution
代码地址:Swim Transformer V2 Code
该方法展示了将Swim Transformer扩展到30亿个参数并使其能够使用高达1536输入尺寸的图像进行训练的sota探讨。通过扩大网络容量和分辨率,Swim Transformer在四个具有代表性的视觉基准上创造了记录:ImageNet-V2 图像分类的 84.0% top-1 准确率,COCO 对象检测的 63.1/54.4 box/mask mAP,ADE20K 语义分割的 59.9 mIoU, Kinetics-400 视频动作分类的 top-1 准确率为 86.8%。Swin Transformer V2使用的技术通常为扩大视觉模型,但它没有像 NLP 语言模型那样被广泛探索,部分原因在于训练和应用方面,存在以下困难:1)视觉模型经常面临大规模不样本不均衡的问题;2)许多下游视觉任务需要高分辨率图像或滑动窗口,目前尚不清楚如何有效地将低分辨率预训练的模型转换为更高分辨率的模型;3)当图像分辨率很高时,GPU 内存消耗也是一个问题。为了解决这些问题,该研究团队提出了几种技术,并通过使用 Swin Transformer 作为案例研究来说明:1)后归一化技术和缩放余弦注意方法来提高大型视觉模型的稳定性;2) 一种对数间隔的连续位置偏差技术,可有效地将在低分辨率图像和窗口上预训练的模型转移到其更高分辨率的对应物上。此外,团队分享了关键实现细节,这些细节可以显著节省 GPU 内存消耗,从而使使用常规 GPU 训练大型视觉模型的方案变得可行。

在这里插入图片描述

Swin Transformer

论文:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
代码:Swin Transformer Code
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Dynamic Head

论文:Dynamic Head: Unifying Object Detection Heads with Attentions
代码:Dynamic Head Code

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

YOLOF

论文:You Only Look One-level Feature
代码:YOLOF Code
在这里插入图片描述

YOLOR

论文:You Only Learn One Representation: Unified Network for Multiple Tasks
代码:YOLOR Code

YOLOX

论文:YOLOX: Exceeding YOLO Series in 2021
代码:YOLOX Code

在这里插入图片描述

Scaled-YOLOv4

论文:Scaled-YOLOv4: Scaling Cross Stage Partial Network
代码:Scaled-YOLOv4 Code

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Scale-Aware Trident Networks

论文:Scale-Aware Trident Networks for Object Detection
代码:Scale-Aware Trident Networks Code

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

DETR

论文:End-to-End Object Detection with Transformers
代码:DETR Code

在这里插入图片描述
在这里插入图片描述

Dynamic R-CNN

论文:Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training
代码:Dynamic R-CNN Code

在这里插入图片描述

  • 29
    点赞
  • 334
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
截至2023年,目标检测领域的最新进展包括以下几个方面: 1. 弱监督目标检测:在目标检测中,通常需要大量的标注数据才能训练准确的模型。而弱监督目标检测则是通过利用更少的标注信息,如图像级标签、边界框标签等,来训练准确的目标检测模型。 2. 目标跟踪与检测融合:目标跟踪和目标检测是计算机视觉领域中的两大核心任务。目标跟踪与检测融合技术可以将两者结合起来,既能够进行目标检测,又能够对目标进行跟踪,从而实现更加准确和鲁棒的目标检测。 3. 多任务学习的应用:多任务学习可以让一个模型同时学习多个相关任务,从而可以提高模型的泛化能力和效果。在目标检测中,多任务学习可以通过将目标检测与其他任务,如图像分割、姿态估计等结合起来,来提高目标检测的精度和效率。 4. 基于深度学习的一阶段目标检测器:传统的目标检测器通常采用两阶段的方式进行检测,即先产生候选框,再对候选框进行分类和回归。而基于深度学习的一阶段目标检测器则可以直接从图像中提取特征,并在特征图上进行目标检测,从而能够实现更加高效和准确的目标检测。 5. 自监督学习技术:自监督学习是一种无需大量标注数据的学习方法,它通过利用数据本身的特征来进行学习。在目标检测中,自监督学习可以通过利用图像中的上下文信息或者运动信息来进行目标检测,从而可以减少对标注数据的依赖。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值