1 摘要
最近目标检测一般需要依赖于2个关键步骤:(1)尽可能有效率地提取目标proposals。(2)对提取到地这些proposals进行分类。与上面的不同,作者提出一个新网络结构DeepMask:通过一个网络分成两条不同路径,一条路径输出目标分割的mask;另一条路径输出对目标的预测分数。作者提出的该超过了目标propasal算法的最好效果。对比于先前的方法,作者的方法能够使用更少的proposal获得更高的召回率。
2 亮点
2.1 DeepMask结构
作者先使用在ImageNet上训练好的VGG-A网络(包含8个3*3的卷积层,5个2x2的max-pooling层,这里去掉最后一个max-pooling层)进行特征提取得到512x14x14的特征图,如下图:
对于512x14x14的特征图,网络分成两条路线:
① 通过1x1卷积层得到目标热度图,再进行双线性插值上采样得到Mask图。
② 经过一个2x2的池化层再经过全连接层得到每一类目标分数的预测。
2.2 损失函数
由于存在两条线路,因此联合损失函数是由两部分组成的,如下:
其中, f s e g m i j ( x k ) f^{ij}_{segm}(x_k) fsegmi