目标检测学习篇（一）

最新推荐文章于 2024-10-12 12:26:23 发布

歸曦

最新推荐文章于 2024-10-12 12:26:23 发布

阅读量216

点赞数 1

分类专栏：目标检测文章标签：目标检测学习

本文链接：https://blog.csdn.net/qq_61937102/article/details/134575959

版权

目标检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

目标检测学习篇（一）

YOLO-部分基础知识学习

bounding box

标签代表的东西

置信度
中心点坐标x
中心点坐标y
box宽w
box高h
剩下：各个类别的分类分数

在这里插入图片描述

YOLO v1

在这里插入图片描述

YOLOv2

在这里插入图片描述

YOLOv3

改进：

Darknet53代替Darknet19
三个输出分支

在这里插入图片描述

模型一

在这里插入图片描述

变种

在这里插入图片描述

YOLOv4

提出目标检测新框架

在这里插入图片描述

技术改进

在这里插入图片描述

YOLOv5 6

基本继承YOLOv4

在这里插入图片描述

Fous模块

在这里插入图片描述

CSP模块

在这里插入图片描述

SSP原理

**目标：**解决CNN输入图像大小必须固定的问题，从而可以使得输入图像高宽比和大小任意。

**论文出处：**何凯明大佬写的 2014年用于视觉识别的深度卷积网络空间金字塔池化

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition | SpringerLink

在这里插入图片描述

PAN原理

在这里插入图片描述

目标检测论文学习

第一篇：CSPNet

论文网址：https://openaccess.thecvf.com/content_CVPRW_2020/papers/w28/Wang_CSPNet_A_New_Backbone_That_Can_Enhance_Learning_Capability_of_CVPRW_2020_paper.pdf

GB引用：

Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops. 2020: 390-391.

主要讲了网络使用了跨阶段局部网络之后，就是把一个输入层分为两个部分，一个经过重重稠密的训练，令一部分却不训练直接加到训练后的特征图上，减少参数量、训练量的同时实现效果不降甚至提升，和残差不同。

一个想法（不知道别人试过没）：CSP是分成两个部分，我们分成多个部分怎么样，或者用一个网络来自适应分成多少个部分最好。

第二篇：百度的PP-YOLO

网址：https://arxiv.org/abs/2007.12099

GB引用：

Long X, Deng K, Wang G, et al. PP-YOLO: An effective and efficient implementation of object detector[J]. arXiv preprint arXiv:2007.12099, 2020.

主要是各种科研trick的堆叠如何实现在目标检测上又快又好，基于YOLOv3基础模块改编的。

可以减少我们的探索时间：先改网络-提高batchsize-EMA（指数移动平均）-DropBlock-修改损失函数-增加网格敏感-优化NMS-坐标卷积-SPP空间金字塔-用更好的预训练模型。

第三篇：EfficientNet

网址：https://openaccess.thecvf.com/content_CVPR_2020/html/Tan_EfficientDet_Scalable_and_Efficient_Object_Detection_CVPR_2020_paper.html

GB引用：

Zhou P, Ni B, Geng C, et al. Scale-transferrable object detection[C]//proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 528-537.

EfficientNet提出了一种称为Compound Scaling的方法，通过对网络的深度、宽度和分辨率进行统一的缩放。具体而言，它引入了一个称为复合系数（compound coefficient）的参数，用于控制网络的整体规模。通过同时按比例调整深度、宽度和分辨率，可以在不同网络规模之间实现平衡。

为了更好地进行模型缩放，EfficientNet还引入了一种新的模型结构块，称为MBConv（Mobile Inverted Bottleneck Convolution）。MBConv结构采用了倒置残差连接（Inverted Residuals）和轻量级的深度可分离卷积（Depthwise Separable Convolution），在提高模型效率的同时保持了较好的性能。

第四篇：Diffusion model for object detection 目标检测的扩散模型

网址：https://openaccess.thecvf.com/content/ICCV2023/html/Chen_DiffusionDet_Diffusion_Model_for_Object_Detection_ICCV_2023_paper.html

GB引用：

Chen S, Sun P, Song Y, et al. Diffusiondet: Diffusion model for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 19830-19843.

本文提出了一种新的目标检测方法DiffusionDet，将目标检测视为从噪声框到目标框的扩散过程。该方法具有灵活性，可以在不同推理场景中使用相同网络参数。实验表明，DiffusionDet在COCO和CrowdHuman数据集上表现良好，优于其他成熟检测器。此外，本文还提供了关于扩散模型在计算机视觉和自然语言处理领域的研究进展，包括文本驱动编辑自然图像、生成离散数据等方面的突破性成果。

第五篇：可变形卷积

网址：1703.06211.pdf (arxiv.org)

GB引用：Dai J, Qi H, Xiong Y, et al. Deformable convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 764-773.

论文提出了可变形卷积，通过引入可学习的偏移量（offset）来灵活地调整卷积核的采样位置。具体而言，可变形卷积首先在输入特征图上生成偏移量图，然后根据偏移量调整卷积核的采样位置，从而实现对目标形变的适应。

论文还提出了可变形RoI池化（Deformable RoI Pooling）模块，用于目标检测任务中的区域兴趣提取。传统的RoI池化只是简单地将RoI区域划分为固定大小的网格，并采用固定的采样位置。而可变形RoI池化利用可学习的偏移量对RoI区域进行密集采样，从而更好地适应目标的形变。

就是通过学习卷积该卷哪些地方来实现的，offset就是原本该卷积的地方偏移多少去采样，实现有针对性的卷积。

第六篇：coordConv坐标卷积

网址：https://proceedings.neurips.cc/paper_files/paper/2018/file/60106888f8977b71e1f15db7bc9a88d1-Paper.pdf

GB引用：Liu R, Lehman J, Molino P, et al. An intriguing failing of convolutional neural networks and the coordconv solution[J]. Advances in neural information processing systems, 2018, 31.

CoordConv通过引入绝对空间坐标信息，提供了一种解决CNNs在处理位置感知任务时的局限性的方法。它通过在输入特征图中添加表示坐标的通道，使得模型能够更好地捕捉位置相关的特征。

第七篇：DynamicDet：一种统一的动态目标检测体系结构

网址：https://openaccess.thecvf.com/content/CVPR2023/html/Lin_DynamicDet_A_Unified_Dynamic_Architecture_for_Object_Detection_CVPR_2023_paper.html

GB引用：Lin Z, Wang Y, Zhang J, et al. DynamicDet: A Unified Dynamic Architecture for Object Detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 6282-6291.

DynamicDet是一种动态神经网络，它通过自适应推断来提高对象检测的准确性和计算效率。DynamicDet的创新点在于提出了一种动态架构，可以根据图像的难度自动决定推断路线，从而实现更准确和更高效的对象检测。DynamicDet还提出了一种新的优化策略，可以根据检测损失来优化动态检测器。此外，DynamicDet还提出了一种可变速度推断策略，可以在不同的准确性和速度之间实现广泛的权衡。

新思路：我们可以设计一个中间分类判断全连接层映射，由easy浅层特征提取之后汇聚（全局平均池化），再分类判断是否需要继续用hard模型继续提取，然后再用一个检测器来检测。

训练方式也挺新颖：根据通过不同检测器的速度来实现差异来判断是属于哪种图片。

第八篇：Yolov3：渐进式改进

网址：https://arxiv.org/abs/1804.02767

GB引用：Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

提出了YOLOv3，这是一种基于YOLOv2的更新，通过一系列小设计改进，提高了准确性和速度。 2. 引入了一种新的网络结构，称为Darknet-53，它比Darknet-19更强大，但比ResNet-101或ResNet-152更高效。 3. 使用双IOU阈值和真实值分配，提高了检测精度。

第九篇：YOLOv7：可训练的免费包为实时物体探测器设定了新的技术水平

网址：https://openaccess.thecvf.com/content/CVPR2023/html/Wang_YOLOv7_Trainable_Bag-of-Freebies_Sets_New_State-of-the-Art_for_Real-Time_Object_Detectors_CVPR_2023_paper.html

GB引用：Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 7464-7475.

速度可以说是非常快的，是YOLOv5的120%

提出了重参数化，大概意思就是：并行训练多个卷积，然后把多个卷积取平均，提高泛化的同时又不增加参数量。

提出了新模块E-ELAN，感觉就像高效堆积木一样，没有经验还堆不起来。

第十篇：DETR-使用变送器进行端到端目标检测（开山之作）

网址：https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13

GB引用：Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Cham: Springer International Publishing, 2020: 213-229.