【目标检测】SSD总结

最新推荐文章于 2024-08-12 14:50:42 发布

你好啊：）

最新推荐文章于 2024-08-12 14:50:42 发布

阅读量291

点赞数

分类专栏：目标检测论文文章标签：深度学习计算机视觉机器学习 python 算法

本文链接：https://blog.csdn.net/Leomn_J/article/details/114303070

版权

目标检测论文专栏收录该内容

17 篇文章 1 订阅

订阅专栏

链接：SSD论文链接

009.SSD
📄论文题目
SSD: Single Shot MultiBox Detector
👨‍💻作者
Wei Liu, Dragomir Anguelov
❓四个问题
❔要解决什么问题？

❔使用什么方法解决问题？

❔实际效果如何？

❔还存在什么问题？

✨论文概述
🔸1.Abstract
SSD将边界框的输出空间离散化为一组默认框，每个特征图位置的纵横比和比例都不同。在预测时，网络为每个默认框中存在的每个对象类别生成分数，并对框进行调整以更好地匹配对象形状。此外，该网络结合了来自具有不同分辨率的多个特征图的预测，以能够处理不同大小的对象。与需要对象建议的方法相比，SSD相对简单，因为它完全消除了建议生成和随后的像素或特征重采样阶段，并将所有计算封装在单个网络中。
🔹2.Introduction
本文提出了一个基于深度网络的目标检测器，它不需要对边界框假设的像素或特征进行重采样，并且与其他方法一样准确。SSD速度的根本提高来自于取消边界框提议以及随后的像素或要素重采样阶段。本文改进包括使用一个小的卷积滤波器来预测边界框位置中的对象类别和偏移量，对不同的长宽比检测使用单独的预测器(滤波器)，并将这些滤波器应用于网络后期的多个特征地图，以便在多个尺度上执行检测。
本文贡献：
SSD是一种多种类别的单阶段检测算法，比yolo更快，更准。
使用应用于特征图的小卷积过滤器预测一组固定默认边界框的类别分数与偏移。
为获得较高的精度，从不同尺度的特征图上产生不同的尺度预测，并根据横纵比分离预测结果。
🔸3.The Single Shot Detector(SSD)
（a）在训练过程中，SSD仅需要为每个对象输入图像和真实框。以卷积方式，在几个具有不同比例（例如（b）和（c）中的8×8和4×4）的特征图中的每个位置上评估一小组（例如4个）不同纵横比的默认框。对于每个默认框，我们预测所有对象类别（（c1，c2，···，， cp））的形状偏移和置信度。在训练时，我们首先将这些默认框与真实框进行匹配。例如，我们将两个默认框与猫匹配，将一个默认框与狗匹配，这两个默认框被视为正数，其余的被视为负数。模型损失是定位损失（例如，平滑L1 ）和置信度损失（例如，Softmax）之间的加权总和。

3.1 Model
SSD方法基于前馈卷积网络，该网络会生成固定大小的边界框集合，并为这些框中存在的对象类实例打分，然后进行非最大抑制步骤以产生最终检测结果。
用于检测多尺度特征图：将卷积特征层添加到截断的基础网络的末尾。这些层的大小逐渐减小，并可以预测多个尺度的检测结果。对于每个特征层，用于预测检测的卷积模型是不同的。
卷积预测器用于检测：每个添加的特征层（或可选地，来自基础网络的现有特征层）都可以使用一组卷积滤波器来生成一组固定的检测预测。
默认框与宽高比：对于给定位置k中的每个box，我们计算c类得分和相对于原始默认盒子形状的4个偏移量。这将导致总共（c + 4）k个滤镜应用在特征图中的每个位置周围，从而生成m×n特征图的（c + 4）kmn输出。
3.2 Training
匹配策略：首先将每个真实框与具有最佳重叠的默认框进行匹配（如在MultiBox中一样）。与MultiBox不同，我们随后将默认框与重叠高于阈值（0.5）的任何真实框进行匹配。
目标训练：

选择默认框的比例和宽高比：同时使用上下特征图进行检测。
难力挖掘：大多数默认框都是负数，尤其是当可能的默认框数量很大时。这在积极和消极的训练实例之间造成了巨大的不平衡。而不是使用所有否定示例，我们对每个默认框使用最高的置信度损失对它们进行排序，然后选择最上面的框，以使负数与正数之间的比例最大为3：1，如此可以更快的优化和更稳定的训练。
数据增强：补丁下采样及翻转等！
🔹4. Experiment result

🔸5. 相关工作

🔹6. 结论

附录