本博文的写作目的:综合比较笔者接触过的一些目标检测的代表性模型(Faster R-CNN, R-FCN, SSD, FPN, RetinaNet, Yolov3)的性能(accuracy/speed/Memory/backbone),方便日后工作中选择模型时参考、借鉴。
-
Outline
- 影响性能的x-因素
- Google report : Speed/accuracy
- 原始论文结果摘要
-
影响性能的X-因素
model-related
- input_image的resolution;
- backbone(VGG16, ResNet, Inception, MobileNet);
- 降采样的倍率(8x、16x、32x、64x ...);
- 检测是否使用多个尺度的feature-maps;
- bbox的encoding方式;
- 模型输出的proposal在计算loss时的匹配策略;
- Hard example mining ratio(正负样本比例);
- Non-max suppression IoU threshold;
- localization loss function;
train/eval-related
- 训练集/测试集(voc、coco、...)
- data argumentation 策略;
- training-configuration : lr、weight_decay、batch_size、in_size ...
-
Google report : Speed/accuracy
-
原始论文结果摘要
@PASCAL VOC
备注:训练数据为:voc-07+12,mAP结果基于voc-12测试集.
@MS COCO
@Speed
mAP-details
Faster RCNN
@PASCAL VOC
@MS COCO
R-RCN
@PASCAL VOC
@MS COCO
SSD
@PASCAL VOC
备注:上述结果基于voc-2007测试集,其中Fast/Faster RCNN输入图片按照短边600进行resize.
备注:上述结果基于voc-2012测试集,其中Fast/Faster RCNN输入图片按照短边600进行resize.Yolo的输入为448x448.
@MS COCO
FPN
@MS COCO
RetinaNet
@MS COCO
Yolo-v3
@MS COCO
Reference
[1]. Speed/accuracy trade-offs for modern convolutional object detectors [2017-CVPR]