SSD论文阅读

最新推荐文章于 2024-08-07 21:24:34 发布

林小林000

最新推荐文章于 2024-08-07 21:24:34 发布

阅读量476

点赞数

分类专栏：深度学习计算机视觉目标检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36095512/article/details/85321611

版权

深度学习同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

计算机视觉

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

本文详细解读SSD（Single Shot MultiBox Detector）论文，介绍其网络架构、训练过程、DBox设置及匹配策略。SSD采用多层特征图预测不同形状的物体，以实现比YOLO更快但与Faster RCNN相当的检测精度。训练关键在于DBox与BBox的对应损失计算。数据增强策略和硬负挖掘解决类别不平衡问题，对于小目标检测的优化方法也进行了探讨。

摘要由CSDN通过智能技术生成

SSD:Single Shot MuiltiBox Dectector论文阅读

实时one-stage目标检测：端到端训练，比YOLO更快但准确度和Faster RCNN相当

预测类别分数和相对于gt box的位置偏移

在不同层级的feature map预测不同宽高比DBox(Default Box,类似于archor)，以检测不同形状和宽高比的物体

网络架构

在这里插入图片描述
VGG结构加多层feature map预测，以conv5为例，对feature map的每一个像素点设定不同框宽高比的DBox，预测过程就是预测这些DBox与BBox的位置偏差，以及当前DBox中存在什么样的物体

训练过程

训练过程的关键是怎么将原图中的BBox与feature map 中的DBox 对应起来并给出相应的位置偏移损失与置信度损失。

在具体操作时，首先将每一个BBOx的坐标归一化到[0,1]，然后在不同的feature map上直接与当前同样归一化的DBox相比较即可。

DBox具体设置

对每一个feature map上的每个cell,都会定义不同大小和宽高比的K个DBox,对于每一个DBox
都预测c+4个值，c为要预测的种类数加一，4表示坐标位置。当预测时，对于一个H*W的feature map，使用3x3的卷积核输出k(c+4)个通道的值，用这些值与对应的BBox进行匹配与计算误差

DBox个数及大小选择：是可调整的超参数，我们对于不同层级的feature map,选择[0.2,0.9]之间等差数列为大小size，因为后面的feature map 更倾向于预测大的物体；我们选择6个宽高比为{1,2,3,1/2,1/3}的Box以及 $\sqrt{s*s+1}$ 作为DBox的宽高

DBox坐标的设置：若当前特征图为[H,W]，我们设置每一个[i,j]处DBox的中心为 $\frac{i+0.5}{H},\frac{j+0.5}{W})$

其实这些DBox设置都是根据只管来的，也可以设置更好的DBox

DBox与BBox的匹配策略

现在我们在每一个feature map上都得到了一堆DBox,BBox，下面讲解怎么将其进行匹配：

对每一个DBox，只要其IOU与一个BBOx超过0.5(且是最大IOU的BBox)，我们将其配对，这样一个BBox可能与多个DBox进行配对，其余的分为负样本

网络预训练

原文中网络是根据VGG16的模型参数进行训练，使用一直到conv5_3的参数，将原文中pool5层改为size3,stride1的卷积，然后使用空洞卷积来适应之后的维数，其中conv6和conv7的参数分别是从原VGG16中fc6和fc7的参数中采样而来，（暂时还不知道为什么这么做）

Loss计算过程

Loss分为置信度损失(softmax)和位置损失(smoothL1)， $x_{ij}^p=1$ 表明第i个DBox与第j个BBox匹配成功且类别为p。N为正样本的数目。则：
$\frac{1}{N}(L_{conf}(x,c) + \alpha L_{loc}(x,l,g))$
在这里插入图片描述

Hard negative mining

由于一个图片中的目标很少，会导致负样本比较多，从而带来类别不平衡问题，我们将负样本按照其置信度损失排序，选择损失较高的一些作为实际的负样本，一般来说：负：正=3:1

数据增强策略

使用原始的图像
在图像上进行裁剪使得新的图片对目标框的IOU为[0.1,0.3,0.5,0.7,0.9]
随机进行裁剪

每一个新图像的大小为[0.1,1]，宽高比为[0.5,2]，采样后对图像块进行resize，以0.5概率进行左右翻转，然后应用一般的图像像素级别变形。

网络测试

我们对一张图片预测出的框以置信度损失阈值(0.01)进行筛选，然后进行非极大值抑制来得到结果

一些其他的结论

对于小的目标表现不好
对于相似的类别表现不好
数据增强的策略非常重要
设置更多的输出层进行预测会更好
更多的DBox形状会更好
使用atrous策略会更快
512的输入比300更好

针对小目标的数据增强

将图像边缘进行扩充(一般来说以均值方式)然后resize,放入训练
设置更好的DBox

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。