FAIR开源目标识别平台Detectron从入门到放弃（一）_detectron 开源物体识别模型coco-CSDN博客

本文链接：https://blog.csdn.net/meccaendless/article/details/79400232

最近去RBG大婶的github主页查看faster rcnn源码，他告诉我py-faster rcnn已经out了，让我移步detectron看下mask rcnn，于是我就去了Shaoqingren婶的github看了下，原作者好像没有说faster rcnn out的意思。抱着试试看的态度，买了两瓶。。。额。去了detectron的githunb主页看了下，于是clone下来研究下。

Detectron文件夹下有大量的文件资源，包含了模型训练与推理的配置，FAIR预训练的模型，docker容器配置以及一些必要的库文件等。即使没有经历一一阅读源码，但是了解下各个文件的作用也是很必要的，下面由AI小白带你学习Detectron平台，一步一步从入门到放弃。

model_Zoo概述

configs/12_2017_baselines文件夹下存放了FAIR在2017年12月份预训练好的最新的目标识别模型，打开文件夹可以看到有faster rcnn，mask rcnn，keyponit rcnn ，retinanet 等，涵盖了最先进的目标识别算法，别问为啥没有yolo和ssd，我也不知道，也许下次更新就会出现。官方在MODEL_ZOO.md文档中公布了一些训练细节：

1. 训练平台是自己的开源gpu服务器Big Basin，8个Tesla P100GPU完成了训练（基于cuda8.0，cuDNN6.0.21）

2. 8个gpu并行sync SGD（同步随机梯度下降法）训练，minibatch 为8或16，这么好的机器minbath size还是选的比较保守的hehe

3.训练时，仅用水平反转作为数据增强，训练数据集为coco_2014_train和coco_2014_valminusminival，完全等价于coco_2017_train

4.测试集采用coco_2014_minival，这也完全等价于coco_2017_val，纯手打，结果比机器翻译还机器翻译，输出结果是coco json格式

5. 目前的预训练模型都是coco dataset格式，Cityscapes dataset预训练模型下个detectron版本即将推出，真替做adas的同学高兴啊，忧愁啥时候出个x光数据集预训练模型

预训练模型策略

configs/12_2017_baselines文件夹下的预训练模型的命名结尾有1x，2x，s1x等字符，表示了三种不同的训练策略：

1. 1x: minibatch size 16, t开始 LR 是0.02，在 60k 和 80k 迭代之间LR乘以0.1系数衰减，总的迭代次数为90k. 训练过程总计12.17个epochs，数据集为coco_2014_train coco_2014_valminusminival,数量为118,287幅图像。

2. 2x: LR为0.01,在 60k 和 80k 迭代之间LR乘以0.1系数衰减，总的迭代次数为90k，训练时间是1x的两倍。

3. s1x ("stretched 1x"): 相比1x，学习率缩小了1.44倍，在 100k 和 120k 迭代之间LR乘以0.1系数衰减，总的迭代次数为130k.

若修改minibatch size，建议在8到16之间, SGD iterations 和 base learning rate 需要修改。参考FB的论文 Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour.

ImageNet 预训练模型

FAIR给出了转换后的基于ImageNet-1k的预训练模型，我们可以用这些模型来迁移学习私人定制模型。

R-50.pkl: converted copy of MSRA's original ResNet-50 model
R-101.pkl: converted copy of MSRA's original ResNet-101 model
X-101-64x4d.pkl: converted copy of FB's original ResNeXt-101-64x4d model trained with Torch7
X-101-32x8d.pkl: ResNeXt-101-32x8d model trained with Caffe2 at FB
X-152-32x8d-IN5k.pkl: ResNeXt-152-32x8d model trained on ImageNet-5k with Caffe2 at FB (see our ResNeXt paper for details on ImageNet-5k)

faster rcnn和mask rcnn baseline

个人比较关心目标识别算法的速度和精度，于是摘出了下面的baseline，主要是end2end faster rcnn和mask rcnn，红色的backbone对应的faster rcnn和mask rcnn比较中意

^_backbone	^_type	^_lr schd	^_im/ gpu	^{_{train mem (GB)}}	^{_{train time (s/iter)}}	^{_{train time total (hr)}}	^{_{inference time (s/im)}}	^_box AP	^_mask AP	^_kp AP	^_prop. AR	^{_{model id}}	^{_{download links}}
^_R-50-C4	^_Faster	^_1x	^₁	^_6.3	^_0.566	^_28.3	^{_{0.167 + 0.003}}	^_34.8	^_-	^_-	^_-	^_35857197	^{_{model \| boxes}}
^_R-50-C4	^_Faster	^_2x	^₁	^_6.3	^_0.569	^_56.9	^{_{0.174 + 0.003}}	^_36.5	^_-	^_-	^_-	^_35857281	^{_{model \| boxes}}
^_R-50-FPN	^_Faster	^_1x	^₂	^_7.2	^_0.544	^_13.6	^{_{0.093 + 0.004}}	^_36.7	^_-	^_-	^_-	^_35857345	^{_{model \| boxes}}
^_R-50-FPN	^_Faster	^_2x	^₂	^_7.2	^_0.546	^_27.3	^{_{0.092 + 0.004}}	^_37.9	^_-	^_-	^_-	^_35857389	^{_{model \| boxes}}
^_R-101-FPN	^_Faster	^_1x	^₂	^_8.9	^_0.647	^_16.2	^{_{0.120 + 0.004}}	^_39.4	^_-	^_-	^_-	^_35857890	^{_{model \| boxes}}
^_R-101-FPN	^_Faster	^_2x	^₂	^_8.9	^_0.647	^_32.4	^{_{0.119 + 0.004}}	^_39.8	^_-	^_-	^_-	^_35857952	^{_{model \| boxes}}
^{_{X-101-64x4d-FPN}}	^_Faster	^_1x	^₁	^_6.9	^_1.057	^_52.9	^{_{0.305 + 0.003}}	^_41.5	^_-	^_-	^_-	^_35858015	^{_{model \| boxes}}
^{_{X-101-64x4d-FPN}}	^_Faster	^_2x	^₁	^_6.9	^_1.055	^_105.5	^{_{0.304 + 0.003}}	^_40.8	^_-	^_-	^_-	^_35858198	^{_{model \| boxes}}
^{_{X-101-32x8d-FPN}}	^_Faster	^_1x	^₁	^_7.0	^_0.799	^_40.0	^{_{0.233 + 0.004}}	^_41.3	^_-	^_-	^_-	^_36761737	^{_{model \| boxes}}
^{_{X-101-32x8d-FPN}}	^_Faster	^_2x	^₁	^_7.0	^_0.800	^_80.0	^{_{0.233 + 0.003}}	^_40.6	^_-	^_-	^_-	^_36761786	^{_{model \| boxes}}
^_R-50-C4	^_Mask	^_1x	^₁	^_6.6	^_0.620	^_31.0	^{_{0.181 + 0.018}}	^_35.8	^_31.4	^_-	^_-	^_35858791	^{_{model \| boxes \| masks}}
^_R-50-C4	^_Mask	^_2x	^₁	^_6.6	^_0.620	^_62.0	^{_{0.182 + 0.017}}	^_37.8	^_32.8	^_-	^_-	^_35858828	^{_{model \| boxes \| masks}}
^_R-50-FPN	^_Mask	^_1x	^₂	^_8.6	^_0.889	^_22.2	^{_{0.099 + 0.019}}	^_37.7	^_33.9	^_-	^_-	^_35858933	^{_{model \| boxes \| masks}}
^_R-50-FPN	^_Mask	^_2x	^₂	^_8.6	^_0.897	^_44.9	^{_{0.099 + 0.018}}	^_38.6	^_34.5	^_-	^_-	^_35859007	^{_{model \| boxes \| masks}}
^_R-101-FPN	^_Mask	^_1x	^₂	^_10.2	^_1.008	^_25.2	^{_{0.126 + 0.018}}	^_40.0	^_35.9	^_-	^_-	^_35861795	^{_{model \| boxes \| masks}}
^_R-101-FPN	^_Mask	^_2x	^₂	^_10.2	^_0.993	^_49.7	^{_{0.126 + 0.017}}	^_40.9	^_36.4	^_-	^_-	^_35861858	^{_{model \| boxes \| masks}}
^{_{X-101-64x4d-FPN}}	^_Mask	^_1x	^₁	^_7.6	^_1.217	^_60.9	^{_{0.309 + 0.018}}	^_42.4	^_37.5	^_-	^_-	^_36494496	^{_{model \| boxes \| masks}}
^{_{X-101-64x4d-FPN}}	^_Mask	^_2x	^₁	^_7.6	^_1.210	^_121.0	^{_{0.309 + 0.015}}	^_42.2	^_37.2	^_-	^_-	^_35859745	^{_{model \| boxes \| masks}}
^{_{X-101-32x8d-FPN}}	^_Mask	^_1x	^₁	^_7.7	^_0.961	^_48.1	^{_{0.239 + 0.019}}	^_42.1	^_37.3	^_-	^_-	^_36761843	^{_{model \| boxes \| masks}}
^{_{X-101-32x8d-FPN}}	^_Mask	^_2x	^₁	^_7.7	^_0.975	^_97.5	^{_{0.240 + 0.016}}	^_41.7	^_36.9	^_-	^_-	^_36762092	^{_{model \| boxes \| masks}}

RetinaNet Baselines

RetinaNet提出是用来抑制目标识别过程中负样本与正样本数量过于悬殊（接近1000：1）以及不同class图像数量带来的模型AP较低问题。也许在coco dataset数据集这两个问题不明显，所以Detectron给出的RetinaNet的boxAP均没有faster rcnn和mask rcnn高。对于自建数据集，RetinaNet值得一试。