SSD论文笔记

  1. 大致背景及思路介绍
    a. 一篇很经典的文章,SSD家族的开山鼻祖,在当年达到了比Yolo快,比Yolo准的水平。
    b. 引入了多尺度检测,使得检测框的数量和大小种类大大增多,达到了更好的水平。
    c. Default box的引入,类似于Anchors。

  2. 与R-CNN系列,YOLO的比较
    a. R-CNN系列的特点就是准和慢。SSD与之相比最大提高就是快,这里主要是由于不需要进行RPN和ROI Pooling这两个步骤,Faster R-CNN的速度为7FPS,而SSD可以达到58FPS。
    b. YOLO系列的特点则是快但是不准。而SSD通过增加更多的预测框,并在多个尺度上进行预测,在更大尺度上的Feature map上预测小物体,提高了检测效果。而快则是由于SSD的卷积层更少,没有全连接层,而且输入的图像更小。在VOC2007上,SSD的准确率比YOLO高出接近10个百分点,快13FPS。

  3. SSD的主要特点和结构
    在这里插入图片描述
    a. Base network采用VGG16,在此基础上,增加若干卷积层以产生预测结果,这些卷积层的大小渐进的缩小,实现在多个尺度的特征图上的预测。
    b. 可以看到,总共在6层上进行预测,每层在每个cell中分别预测6个或3个锚框,最后我们会的到(38 * 38 3+19 * 19 * 6+10 * 10 * 6+5 * 5 * 6+3 * 3 * 6+1 * 1 * 6)总计7308个框,而YOLO只在最后一层的77上,每个cell预测两个框共98个,显然准确率上,SSD会有更大可能优于YOLO。
    c. 匹配策略上,首先每个GT box会和所有的预测框中IoU最高的进行一个匹配,然后还会和所有IoU大于一个阈值的进行匹配,这样使得每个GT box可能会和多个预测框进行匹配。
    d. 损失函数:定位的损失函数为Smooth L1 loss,分类的损失函数为典型的softmax 损失函数,N为匹配到的预测框的数量,α用于平衡两个loss,默认为1.
    在这里插入图片描述
    e. Default box 缩放尺度和比例的选择。在每层上的缩放比例通过如下公式进行确定,可以看到层数越深,比例越大,也就是小物体主要靠前几层,大物体靠后几层:
    在这里插入图片描述
    f. Hard negative mining:正负样本不均衡的问题依然存在,这里通过置信度排序后,将负样本和正样本的比例控制到3:1。这样可以使得训练更快更稳定。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值