Day6:目标检测与MMDetection

我爱摆烂∩

已于 2023-06-18 18:14:00 修改

阅读量362

点赞数

文章标签：目标检测人工智能深度学习

于 2023-06-18 18:13:20 首次发布

本文链接：https://blog.csdn.net/qq_64392587/article/details/131274218

版权

文章介绍了深度学习在目标检测领域的应用，包括基于RPN的两阶段检测网络如FasterR-CNN和单阶段检测网络如YOLO、SSD。此外，还提到了最新发展的Transformer-based方法DETR和DeformableDETR。文章讨论了不同检测网络的特点，如两阶段网络的准确性与单阶段网络的速度优势。同时，简述了神经网络的结构设计、激活函数的选择，以及卷积神经网络的核心——局部连接和权值共享。最后，文章提及了目标检测模型的评估指标，如准确率、召回率和平均精度（AP）在评估检测性能中的作用。

摘要由CSDN通过智能技术生成

一、目标检测的定义

基于深度学习的目标检测方法主要包括两大类，一类是基于区域建议网络(Region Proposal Network, RPN)的两阶段检测网络，其首先生成区域候选框，然后对每个区域候选框的特征进行预测，这类方法的主要研究有R-CNN系列网络、SPP网络和R-FCN网络等。另一类是端到端的单阶段检测网络，它可以实现一次性对整张图像中目标的坐标定位与分类，一般这类方法的检测速度要快于前者，这类方法的主要研究有YOLO和SSD等。

而最新的目标检测算法出现了以Transformers为代表的算法，如DETR (2020)和Deformable DETR (2021)等。

两阶段目标检测网络Two-Stage Detectors

以faster RCNN为例，网络主要分为两部分。第一部分为主干特征提取网络，采用ResNet50/101网络提取图像特征并得到特征图。第二部分为区域建议网络和RoI Align层，由区域建议网络对特征图进行卷积运算得到候选框并对候选框进行首次校正，然后候选框再截取特征图得到局部特征图。因为局部特征图的长宽是不固定的，不利于模型的学习，因此需要通过RoI Align将局部特征图归一化到相同大小上。

单阶段目标检测网络One-Stage Detectors

单阶段算法直接通过密集预测产生检测框，相比于两阶段算法，模型结构简单、速度快，易于在设备上部署。早期由于主干网络、多尺度技术等相关技术不成熟，单阶段算法在性能上不如两阶段算法，但因为速度和简洁的优势仍受到工业界青睐。随着单阶段算法性能逐渐提升，成为目标检测的主流方法。

在这里插入图片描述

Sigmoid函数能把输入的值输出为范围在0--1之间的值，太大的值输出1，太小的值输出0，中间的随输入的值的大小变化，同时它输出的值都是大于0而且不是中心对称。

tanh函数能把输入的值输出为范围在-1--1之间的值，从图像上可以知道当输入值小于-2.5或大于2.5时，输出一直是-1或1。同时输出的值是中心对称的，在数据处理时由于有正负的数据因此它比Sigmoid函数更好。

ReLU函数也就是我们前面一直提到的max函数，输入的值大于0则直接输出这个值，如果输入的值小于0则输出0。

Leaky ReLU函数将输入小于0的值乘上0.1后在输出。对于小于0的输入值不那么绝对的输出0。

激活函数是对前一层输出的每一个维度分别进行处理。

对于神经网络的结构设计并没有统一的答案。神经网络结构设计有三个要素，分别是深度设计（多少个隐层）、宽度设计（每个隐层多少个神经元）、激活函数。

对于梯度图来说，正向计算可以通过输入找到输出，反向计算可以找到中间任意门单元的梯度。

一些常见的门单元，加法门，正向就是相加，反向是上游梯度直接传过去；乘法门，正向相乘，反向相互交换后与上游梯度相乘；拷贝门，正向直接拷贝，反向则将上游的梯度都回传后相加；max，门正向将更大的数往后传，反向将上游梯度传给更大数的那一段，其余为零。

之前介绍了梯度消失，是由于链式法则的乘法特性导致的一种情况，还有另一种情况就是梯度爆炸，在断崖处的梯度乘以学习率后会是一个非常大的值，从而飞出了合理区域，最终导致算法不收敛。解决方案就是把沿梯度方向前进的步长限制在某个值内，这叫做梯度裁剪。这些情况并不适合网络中信息流的传递，于是在网络中的激活函数并不会选择sigmoid函数，与此类似的还有tanh函数。而ReLU函数则比较合适，不过由于在小于0的部分过于绝对，因此在全连接神经网络中一般使用Leakly ReLU函数。