SSD: Single Shot MultiBox Detector

SSD: Single Shot MultiBox Detector

总括

--目的:单一网络;将不同比例的特征map的每个位置的boundingbox转化成一组default box(默认的框);预测时,计算每个default box中存在每一目标类别的分数,并且生成匹配目标形状的box;组合从不同特征map得到的box;

--优点:消除proposal生成和重复特征提取;压缩计算量;容易优化;更好的应用;准确率具有竞争性但速度够快(与其它多步相比)

--数据集:PASCAL VOC,COCO和ILSVRC DEC数据集;

--结果:300*300,74.3%mAP(77.2%数据增广后)(VOC2007 test),59FPS(Nvidia Titan X);512*512,76.9% mAP (79.8%数据增广后)(VOC2007 test),59FPS(Nvidia Titan X),胜过Faster R-CNN;与其它单步方法比较,准确率更好(即使是小分辨输入);

--原有检测方法总结:变体(首先假设bounding box,然后重复采集像素或特征,最后运用高质量分类器);代表Faster R-CNN(RexNet);特点:慢,难以嵌入,成本高;最快的高精度Faster R-CNN(7FPS);

--速度方面的显著改善:(59 FPS,mAP 74.3% VS Faster R-CNN,7 FPS,mAP 73.2%或者YOLO,45 FPS,mAP 63.4%(VOC2007 test));

SSD框架


--训练涉及的问题:选择default boxes及其规模;负样本的采集;数据增广策略;

--匹配策略:在多个不同的位置、比例和规模的default boxes中选择与ground truth有最佳jaccard overlap;文章后期将 default box 与任何的 groundtruth box 配对,jaccard overlap大于阈值(0.5);

--训练目标:

=1表示 i 个 default box 与 类别p的 第 j个 ground truth box 相匹配;d表示default bounding box;设置为1(通过交叉验证所得);




--选择default boxes的比例和规模:(1)特征Map特点:CNN 网络层越深,feature map 的尺寸(size)越小,其小的Map会存在某种程度的平移与尺度不变性;处理不同尺度物体的方法:将图片转换成不同的尺度独立处理,然后综合不同尺度的结果;使用不同层上的feature maps,同时共享所有物体尺度的参数;(越低层的层,保留的图像细节越多)(2)本文的设计中,利用feature map 中特定的位置负责图像中特定的区域和物体特定的尺寸;如下为m个feature map做预测;

(smin为0.2,smax为0.9)

每个default boxes的纵横比为纵横比为1时,增加一个规模为的default box;中心坐标为为第k个特征Map的宽或者高;

设计适合特定数据集的最佳default boxes的分布是一个开放性问题;(3)选择与ground truth最佳的比例和规模的default boxes作为positive,其余的为negative 训练样本;

--负样本确定:如上方案产生多个符合 ground truth 的 predictions boxes,同时,不符合 ground truth boxes 更多,使得 negative boxes、positive boxes 之间的不均衡,训练时难以收敛,因此采取每一个物体位置上对应 predictions(default boxes)是negative 的 boxes 进行排序,按照 default boxes 的 confidence 的大小,选择最高的几个,保证最后 negatives、positives 的比例为3:1即可;实验发现,这样的比例可以更快的优化,训练也更稳定。 

--数据扩展:(1)随机采样与目标图像最小jaccard overlap为0.1,0.3,0.5,0.7或者0.9的图像patch(每一patch是原始图像的[0.1,1];比例为[0.5,2];并保留ground truth中心在采样的patch的重叠部分);(2)每个patch被resize为固定大小,并以0.5的概率随机水平翻转;

实验结果

--基础网络:VGG16(在ILSVRC CLS-LOC数据集上预训练);

--修改网络:fc6和fc7转换为卷积层,参数采样于fc6和fc7;pool5层的2*2-s2参数改为3*3-s1;使用trous algorithm(holes)算法(主要想利用训练的模型微调,又想改变网络结构);移除所有的dropout层和fc8层;

holes算法:http://blog.csdn.net/tangwei2014/article/details/50453334

--训练参数:SGD;初始学习率0.001(学习率递减在每个数据集上稍微不同,具有递减方案后面介绍);momentum0.9;weight decay0.0005;batchsize32;(Caffe)

--PASCAL VOC2007:(1)与Fast R-CNN和Faster R-CNN比较(VOC2007 test 4952张图片)(所有模型都在预训练的VGG16网络上微调);(2)SSD使用预测,的default box的规模为0.1(SSD512模型,添加额外的conv12_2,设置smin为0.15,,conv4_3为0.07),新添加的卷积层参数用Xavier初始化,特征Map位置关联4个default box,即省略1/3和3的纵横比的box,其它层使用6个box;(3)文献指出,conv4_3 相比较于其他的 layers,有着不同的 feature scale,我们使用 ParseNet 中的 L2 normalization 技术将 conv4_3 feature map 中每一个位置的 feature norm scale 到 20,并且在 back-propagation 中学习这个 scale;(4)训练参数:前40k迭代学习率为0.001;每迭代10K学习率除以10;(5)结果分析:

SSD 对小物体目标较为敏感,在检测小物体目标上表现较差,因为对于小目标而言,经过多层卷积之后,信息大幅度减少。虽然提高输入图像的 size 可以提高对小目标的检测效果,但是对于小目标检测问题,还是有很多提升空间的;SSD 对大目标检测效果非常好,同时,因为使用不同 aspect ratios 的 default boxes,SSD 对于不同 aspect ratios 的物体鲁棒性较高;



--模型分析:检验哪些部件影响检测器的性能,(1)数据扩增是必要的;(2)更多的default box shape也是好的;(3)(VGG16的一个版本)Atrous是更快的;(4)不同分辨率下的多个输出是好的;

 

--PASCAL VOC2012:参数设置与VOC2007相似;训练数据(VOC2012 trainval, VOC2007 trainval 和 test,共 21503

张图片),测试数据(VOC2012 test,共10991张图片);学习率前60k为0.001,后20k为0.0001;


--COCO:PASCAL VOC数据集的目标比COCO中的小(修改以上策略为:用0.15代替规模中的0.2;conv4_3的规模为0.07);训练集(trainval35k);测试集(test-dev2015);学习率(160k为0.001,接下来的40k为0.0001,最后的40k为0.00001);SSD512(添加conv12_2预测,设置smin为0.1,conv4_3的规模为0.04);



--Preliminary ILSVRC结果:SSD300;训练集(ILSVRC2014 DET train和val1);学习率(320k为0.001,接下来的80k为0.0001,最后的40k为0.00001);val2 set上的结果43.4 mAP;

--Data Augmentation for Small Object Accuracy:



--前向时间:最终过滤boundingbox的置信度为0.01;nms(对于每一类jaccard overlap 0.45)并保留前200个检测;处理最后boundingbox的时间为1.7ms(对于SSD和20类VOC),接近于新添加层的前向总时间(2.4ms);测试速度条件:batchsize 8(Titan X,cuDNN v4,Intel Xeon E5-2667v3@3.20GHz);


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值