目标检测之SSD

一.预备知识

其实SSD本身的算法并不困难,只是如果没有好的基础最终看起来都像雾里看花看似能懂其实真正的原来还是说不上来,现在知乎的文章讲的已经非常非常详细了,嗯,比论文详细的多,但是个人感觉还是适合基础较好的人看,而对初学者并不友好,因此此处整理这篇文章记录自己的学习加深印象并希望对初学者更加友好,这里首先给出SSD中用到的基础知识,读者可以先读SSD看到相关概念再来看这些知识。

1.边框回归(Bounding Box Regression)

首先这里只讲边框回归是什么,关于它在SSD中的具体用法在下面会给出。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2.IOU(Intersection over Union)
在这里插入图片描述
在这里插入图片描述
二.SSD原理在这里插入图片描述
SSD采用VGG16作为基础模型,在此基础上主要有如下几个特点:

1.加入基于特征金字塔(Pyramidal Feature Hierarchy)的检测方式。

在上图中可以看到SSD将每次卷积得到的特征图(feature map)都进行检测,而我们知道CNN深层网络一般都会经过每层的卷积(pad=0)和池化(stride>=2)将feature map变得越来越小,这样就可以用小的特征图来检测大的目标,大的特征图来检测小的目标。因为特征图越小相当于将图像压缩的越严重,那么图中本来的小物体就会变得特别小导致无法被识别(这也是YOLO无法识别小目标的原因),而在大的特征图用大目标一般很大,而先验框(prior box后面会介绍)大小固定,无法完全包含大的目标,因此无法识别,但是小的目标正相反,恰恰可以被很好识别。

2.一次完成目标定位与分类,但是对特征图(feature map)进行卷积来检测目标

SSD继承了YOLO将detection转换成regression的思路,但是与YOLO采用全连接进行检测不同的是SSD将每层卷积后的feature map进行3x3xp的卷积然后进行检测。

3.引入先验框(Prior Box)

SSD借鉴了Faster R-CNN中anchor的理念在得到的feature map中为每个单元设置长宽比不同的先验框,而训练时的预测边界框(bounding boxes)是在先验框为基准的,减少了训练难度,之后通过softmax分类+边界回归(bounding box regression)获得真实目标的位置。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(3).先验框的使用

SSD流程图中卷积后的feature map被3x3xp的卷积核卷积过程分为一下两个卷积过程(class_num:(种类数+1个背景),prior_num:先验框数目):

——被3x3x(class_num x prior_num)大小的卷积核卷积生成[class_num*prior_num, layer_height, layer_width]的特征图用于softmax分类

——被3x3x(4 x prior_num)大小的卷积核卷积生成[4 x prior_num, layer_height, layer_width]的特征图用于边框回归。

(4).先验框的匹配

首先确定ground truth相匹配的先验框(prior box),然后用该先验框对应的bounding box来预测它,匹配原则:

·找到与每个真实框(ground truth)IOU最大的先验框(prior box),这样保证每个ground truth都有先验框与之对应。

·剩下的先验框若与某个ground truth的IOU大于一个阀值也和该ground truth匹配。如果多个ground truth与某个先验框IOU大于阈值,那么先验框只与IOU最大的那个先验框进行匹配。

·与ground truth匹配的先验框为正样本,先验框没有与任何ground truth进行匹配则是负样本。

三.SSD代价函数

这里根据上面先验框的使用可以看到整个过程的误差分为两部分即:softmax分类误差和边框回归误差,代价函数就是这两个误差的加权平均。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
bounding box regression采用Smooth L1 loss:
在这里插入图片描述在这里插入图片描述
这篇文章这样就大致把SSD介绍清楚了,但是并不完善,不过写文章太费劲了,改天再补充吧。如果各位同学有兴趣的话,可以关注我们的微信公众号。我们会定期推送最新业界专业知识。

微信扫码关注“AI与机器学习”,获得更多AI内容
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
需要学习Windows系统YOLOv4的同学请前往《Windows版YOLOv4目标检测实战:原理与源码解析》,课程链接 https://edu.csdn.net/course/detail/29865【为什么要学习这门课】 Linux创始人Linus Torvalds有一句名言:Talk is cheap. Show me the code. 冗谈不够,放码过来!  代码阅读是从基础到提高的必由之路。尤其对深度学习,许多框架隐藏了神经网络底层的实现,只能在上层调包使用,对其内部原理很难认识清晰,不利于进一步优化和创新。YOLOv4是最近推出的基于深度学习的端到端实时目标检测方法。YOLOv4的实现darknet是使用C语言开发的轻型开源深度学习框架,依赖少,可移植性好,可以作为很好的代码阅读案例,让我们深入探究其实现原理。【课程内容与收获】 本课程将解析YOLOv4的实现原理和源码,具体内容包括:- YOLOv4目标检测原理- 神经网络及darknet的C语言实现,尤其是反向传播的梯度求解和误差计算- 代码阅读工具及方法- 深度学习计算的利器:BLAS和GEMM- GPU的CUDA编程方法及在darknet的应用- YOLOv4的程序流程- YOLOv4各层及关键技术的源码解析本课程将提供注释后的darknet的源码程序文件。【相关课程】 除本课程《YOLOv4目标检测:原理与源码解析》外,本人推出了有关YOLOv4目标检测的系列课程,包括:《YOLOv4目标检测实战:训练自己的数据集》《YOLOv4-tiny目标检测实战:训练自己的数据集》《YOLOv4目标检测实战:人脸口罩佩戴检测》《YOLOv4目标检测实战:中国交通标志识别》建议先学习一门YOLOv4实战课程,对YOLOv4的使用方法了解以后再学习本课程。【YOLOv4网络模型架构图】 下图由白勇老师绘制  

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值