(四)目标检测- YoloV3和SSD对比

li三河

已于 2022-02-21 20:51:27 修改

阅读量2.5k

点赞数

分类专栏：深度学习算法总结文章标签：深度学习 cnn 人工智能

于 2022-02-15 16:34:09 首次发布

本文链接：https://blog.csdn.net/qq_23123181/article/details/122947616

版权

深度学习算法总结专栏收录该内容

7 篇文章 1 订阅

订阅专栏

SSD的loss中，不同类别的分类器是softmax，最终检测目标的类别只能是一类。而在yolo-v3中，例如对于80类的coco数据集，对于类别进行判断是80个logistic分类器，只要输出大于设置的阈值，则都是物体的类别，物体同时可以属于多类，例如一个物体同时是person和woman。

SSD损失函数分为两个部分：对应搜索框的位置loss(loc)和类别置信度loss(conf).

i指代搜索框序号，j指代真实框序号，p指代类别序号，p=0表示背景， $x_{ij}^{p}= \left \{ 1,0 \right \}$ 中取1表示此时第i个搜索框和第j个类别框IOU大于阈值，此时真实框中对象类别为p。 $c_{i}^{p}$ 表示第i个搜索框对应类别p的预测概率。

Backbone network：SSD原版的基础网络就是VGG19，也可以用mobile-net、resnet等。yolo-v3的基础网络是作者自己设计的darknet-53，借鉴了resnet的shortcut层，根据作者的话，以更少的参数、更少的计算量实现了接近的效果。

Anchor box：ssd从faster-rcnn中吸收这一思想，采用的是均匀地将不同尺寸的default box分配到不同尺度的feature map上。例如6个feature map的尺度，default box的大小从20%到90%的占比，同时有aspect_ratios=[[2], [2, 3], [2, 3], [2, 3], [2], [2]]，最终可以计算出不同default box大小。而yolo-v3延续了yolo-v2的方法：从coco数据集中对bounding box的(width,height)进行聚类，作者聚出9类，每类中心点取出作为1个box_size，将每三个box_size划分给一个feature map。

图片输入：yolo-v3将输入图片映射到第一层feature map的固定比例是32。对于输入为416*416的图片，第一层feature map大小为13*13.但是yolo-v3支持从300到600的所有32的倍数的输入。例如输入图片为320*320，这样第一层feature map就是为10*10，在这样的gird cell中同样可以进行predict和match groudtruth。

Bounding Box的预测方法：在不同的gird cell上，ssd预测出每个box相对于default box的位置偏移和宽高值。yolo-v3的作者觉得这样刚开始训练的时候，预测会很不稳定。因为位置偏移值在float的范围内都有可能出现一个很大的值，位置都超出图片范围，都是完全无效的预测。所以yolov3的作者对于这位置偏移值都要做一个sigmoid激活，将范围缩为0~1。b_x和b_y的值在(cell_x_loc,cell_x_loc+1),(cell_y_loc,cell_y_loc+1)之间波动。

li三河

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
(四)目标检测- YoloV3和SSD对比

SSD的loss中，不同类别的分类器是softmax，最终检测目标的类别只能是一类。而在yolo-v3中，例如对于80类的coco数据集，对于类别进行判断是80个logistic分类器，只要输出大于设置的阈值，则都是物体的类别，物体同时可以属于多类，例如一个物体同时是person和woman。SSD损失函数分为两个部分：对应搜索框的位置loss(loc)和类别置信度loss(conf).i指代搜索框序号，j指代真实框序号，p指代类别序号，p=0表示背景，中取1表示此时第i个搜索框和第j个类别框...
复制链接

扫一扫

专栏目录