SSD 笔记

前言
1.本文重点是网络设计、测试过程、以及损失函数三大模块,尽量用较少篇幅表达清楚论文算法,其他一些不影响理解算法的东西不做赘述
2.博客主要是学习记录,为了更好理解和方便以后查看,当然如果能为别人提供帮助就更好了,如果有不对的地方请指正(论文中的链接是我经过大量搜索,个人认为讲解最清楚的参考)

论文链接
代码链接
论文翻译

创新点
1.在不同尺寸的特征图进行预测,达到了多尺度多分辨率的图像金字塔式的检测效果
2.在特征图上使用小卷积滤波器,预测固定的一组默认边界框的类别分数和位置偏移(没有全连接层)

网络设计
在这里插入图片描述
1.相比于YOLO只在最后一层进行检测,SSD在多张不同尺寸的特征图上进行检测,并且用了默认框机制(default box)
在这里插入图片描述
2.default box与Faster R-CNN的anchor机制相比
相同点:目的都是预先设置一些框,然后通过训练回归这些框的位置,使他们尽可能逼近gt
不同点:anchor box是在RPN网络最后的特征图上的每个像素点上生成9个,这9个框是固定尺寸的,所有的anchor box经过非极大值抑制,选择一些作为候选框送入Fast R-CNN进行最终预测;default box则是在网络的后6层每层特征图上的每个像素点都生成几个(4或6个),生成的方式参考这篇博客,所有的default box都进行最终预测,然后经过非极大值抑制得到最终结果
在这里插入图片描述
3.选取的特征图大小分别是38x38、19x19、10x10、5x5、3x3、1x1,每个像素点产生的默认框数是4、6、6、6、4、4,则一共产生38x38x4+19x19x6+10x10x6+5x5x6+3x3x4+1x1x4=8732个
在这里插入图片描述
4.对于mxn的特征图,每个像素点有k个默认框,每个默认框计算c个类别(背景算一类)得分4个偏移值(预测的bbox相对于default box的偏移),所以在这张特征图上产生的预测的维度是,mxnxkx(c+4)

测试过程
1.待检测涂片
2.输入到SSD网络,在后六层卷基层输出的特征图上每个像素点都生成几个尺度不同的bounding box,bbox包含类别信息(类别数+背景),坐标信息
3.将这些不同尺度特征图的bounding box经过非极大值抑制得到最终输出

训练过程
样本划分
正样本:与每个gt 的iou最大的default box,以及gt与default box的iou大于0.5的default box
负样本:不符合正样本的default box经过难例挖掘(使正样本:负样本=1:3)作为负样本
注:
1)在训练过程中,首先要确定训练图片中的ground truth(真实目标)与哪个先验框来进行匹配,与之匹配的先验框所对应的边界框将负责预测它。在YOLO中,ground truth的中心落在哪个单元格,该单元格中与其IOU最大的边界框负责预测它。但是在SSD中却完全不一样,SSD的先验框与ground truth的匹配原则主要有两点:与gt 的iou最大的default box,以及gt与default box的iou大于0.5的default box(参考

损失函数
损失函数和Faster R-CNN类似,只是进一步扩展到处理多个物体类别
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

SSD缺点
1.对小目标检测还是不够好,即使最大的特征图38x38相对原始图片也采样很多倍,小目标的信息可能已经丢失

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值