SSD 笔记

最新推荐文章于 2022-03-23 15:55:12 发布

农民工小陈

最新推荐文章于 2022-03-23 15:55:12 发布

阅读量313

点赞数

本文链接：https://blog.csdn.net/weixin_42102248/article/details/102546230

版权

前言
1.本文重点是网络设计、测试过程、以及损失函数三大模块，尽量用较少篇幅表达清楚论文算法，其他一些不影响理解算法的东西不做赘述
2.博客主要是学习记录，为了更好理解和方便以后查看，当然如果能为别人提供帮助就更好了，如果有不对的地方请指正（论文中的链接是我经过大量搜索，个人认为讲解最清楚的参考）

论文链接
 代码链接
 论文翻译

创新点
1.在不同尺寸的特征图进行预测，达到了多尺度多分辨率的图像金字塔式的检测效果
2.在特征图上使用小卷积滤波器，预测固定的一组默认边界框的类别分数和位置偏移（没有全连接层）

网络设计
在这里插入图片描述
1.相比于YOLO只在最后一层进行检测，SSD在多张不同尺寸的特征图上进行检测，并且用了默认框机制（default box）

2.default box与Faster R-CNN的anchor机制相比
相同点：目的都是预先设置一些框，然后通过训练回归这些框的位置，使他们尽可能逼近gt
不同点：anchor box是在RPN网络最后的特征图上的每个像素点上生成9个，这9个框是固定尺寸的，所有的anchor box经过非极大值抑制，选择一些作为候选框送入Fast R-CNN进行最终预测；default box则是在网络的后6层每层特征图上的每个像素点都生成几个（4或6个），生成的方式参考这篇博客，所有的default box都进行最终预测，然后经过非极大值抑制得到最终结果
在这里插入图片描述
3.选取的特征图大小分别是38x38、19x19、10x10、5x5、3x3、1x1，每个像素点产生的默认框数是4、6、6、6、4、4，则一共产生38x38x4+19x19x6+10x10x6+5x5x6+3x3x4+1x1x4=8732个

4.对于mxn的特征图，每个像素点有k个默认框，每个默认框计算c个类别（背景算一类）得分4个偏移值（预测的bbox相对于default box的偏移），所以在这张特征图上产生的预测的维度是，mxnxkx(c+4)

测试过程
1.待检测涂片
2.输入到SSD网络，在后六层卷基层输出的特征图上每个像素点都生成几个尺度不同的bounding box，bbox包含类别信息（类别数+背景），坐标信息
3.将这些不同尺度特征图的bounding box经过非极大值抑制得到最终输出

训练过程
样本划分
正样本：与每个gt 的iou最大的default box，以及gt与default box的iou大于0.5的default box
负样本：不符合正样本的default box经过难例挖掘（使正样本：负样本=1:3）作为负样本
注：
1）在训练过程中，首先要确定训练图片中的ground truth（真实目标）与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。在YOLO中，ground truth的中心落在哪个单元格，该单元格中与其IOU最大的边界框负责预测它。但是在SSD中却完全不一样，SSD的先验框与ground truth的匹配原则主要有两点：与gt 的iou最大的default box，以及gt与default box的iou大于0.5的default box（参考）

损失函数
损失函数和Faster R-CNN类似，只是进一步扩展到处理多个物体类别
在这里插入图片描述

SSD缺点
1.对小目标检测还是不够好，即使最大的特征图38x38相对原始图片也采样很多倍，小目标的信息可能已经丢失

农民工小陈

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
SSD 笔记

说明1.本文是博主的学习记录，主要为了方便以后查看，当然如果能为别人提供帮助就更好了，如果有不对的地方请指正2.本文重点是网络设计、测试过程、以及损失函数三大模块，尽量用较少篇幅表达清楚论文整体思路，其他一些不影响理解论文算法的东西有需要的请查看其他博客3.论文中的链接是我经过大量搜索，个人认为讲解最清楚的参考，看本文的过程中如对一些名词有疑惑可以直接点击参考链接原论文代码论文翻译创...
复制链接

扫一扫