(四)目标检测- YoloV3和SSD对比

 SSD的loss中,不同类别的分类器是softmax,最终检测目标的类别只能是一类。而在yolo-v3中,例如对于80类的coco数据集,对于类别进行判断是80个logistic分类器,只要输出大于设置的阈值,则都是物体的类别,物体同时可以属于多类,例如一个物体同时是person和woman。

SSD损失函数分为两个部分:对应搜索框的位置loss(loc)和类别置信度loss(conf).

i指代搜索框序号,j指代真实框序号,p指代类别序号,p=0表示背景,x_{ij}^{p}= \left \{ 1,0 \right \}中取1表示此时第i个搜索框和第j个类别框IOU大于阈值,此时真实框中对象类别为p。c_{i}^{p}表示第i个搜索框对应类别p的预测概率。

Backbone network:SSD原版的基础网络就是VGG19,也可以用mobile-net、resnet等。yolo-v3的基础网络是作者自己设计的darknet-53,借鉴了resnet的shortcut层,根据作者的话,以更少的参数、更少的计算量实现了接近的效果。

Anchor box:ssd从faster-rcnn中吸收这一思想,采用的是均匀地将不同尺寸的default box分配到不同尺度的feature map上。例如6个feature map的尺度,default box的大小从20%到90%的占比,同时有aspect_ratios=[[2], [2, 3], [2, 3], [2, 3], [2], [2]],最终可以计算出不同default box大小。而yolo-v3延续了yolo-v2的方法:从coco数据集中对bounding box的(width,height)进行聚类,作者聚出9类,每类中心点取出作为1个box_size,将每三个box_size划分给一个feature map。

图片输入:yolo-v3将输入图片映射到第一层feature map的固定比例是32。对于输入为416*416的图片,第一层feature map大小为13*13.但是yolo-v3支持从300到600的所有32的倍数的输入。例如输入图片为320*320,这样第一层feature map就是为10*10,在这样的gird cell中同样可以进行predict和match groudtruth。

Bounding Box的预测方法:在不同的gird cell上,ssd预测出每个box相对于default box的位置偏移和宽高值。yolo-v3的作者觉得这样刚开始训练的时候,预测会很不稳定。因为位置偏移值在float的范围内都有可能出现一个很大的值,位置都超出图片范围,都是完全无效的预测。所以yolov3的作者对于这位置偏移值都要做一个sigmoid激活,将范围缩为0~1。b_x和b_y的值在(cell_x_loc,cell_x_loc+1),(cell_y_loc,cell_y_loc+1)之间波动。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值