在本文中,简要回顾了DeepID-Net,介绍了一种基于形变部件的卷积神经网络(CNN)。采用一个新的形变约束池化层(def-pooling)模拟具有几何约束和惩罚的对象部分的变形。
这意味着,除了直接检测整个对象外,检测可以帮助检测整个对象的对象部分也是至关重要的。它是ILSVRC 2014中的第一个用于对象检测任务的文章。它已在2015年发表在CVPR [1]和2017年TPAMI [2]论文中,共引用了约300篇文章(SH Tsang @ Medium)。
DeepID-Net
黑色的步骤实际上是R-CNN中存在的原有东西。实际上红色的步骤没有出现在R-CNN中。
我将在上图中提及每一个步骤,并在文章结尾处给出结果。
步骤
(1)选择性搜索
(2)边界框拒绝
(3)使用对象级注释进行预训练
(4)形变约束池化层(Def-Pooling Layer)
(5)场景建模
(6)模型平均
(7)边界框回归
1.选择性搜索
(1)首先,颜色相似性、纹理相似性、区域大小和区域填充被用作非基于对象的分割。因此,我们获得了许多小的分割区域,如图的左下角所示。
(2)然后,使用自下而上的方法将小的分割区域合并在一起,以形成更大的分段区域。
(3)因此,如图像所示,生成大约2K个区域提议(边界框候选)。
2. 边界框拒绝
R-CNN用于拒绝最有可能是背景的边界框。
3.使用对象级注释进行预训练
通常,预训练是基于图像层次的注释。当对象在图像中太小时,其效果不好,因为对象应占据由选择性搜索创建的边框内的大区域。
因此,预训练是在对象级注释上进行的。深度学习模型可以是任何模型,例如ZFNet、VGGNet和GoogLeNet。
4. 形变约束池化层(Def-Pooling Layer)
比如我们使用ZFNet,在conv5之后,输出将通过原始FC层fc6和fc7,以及一组转换和建议的形变约束池化层(Def-Pooling Layer)。
形变约束池层(Def-Pooling Layers),每个光圈中心具有高激活值
对于形变约束路径,conv5的输出经过卷积层,然后经过形变约束层,然后有一个最大池化层(max pooling layer)。
简而言之,ac乘以dc和n的总和是上图中的5×5变形惩罚。惩罚是将对象部分放置在假定锚位置的惩罚。
形变约束池层(Def-Pooling Layers)学习具有不同大小和语义含义的对象部分的变形。
通过训练这个形变约束池层(Def-Pooling Layers),如果待检测对象的对象部分靠近它们的锚点,则在形变约束池层(Def-Pooling Layers)之后将给出高的激活值。这个输出将连接到200个类别分数以改进。
5.场景建模
在ILSVRC中的对象检测任务中,只有200个类别。ILSVRC还有一项分类竞争任务,用于对1000个类别对象进行分类和本地化。与对象检测任务相比,内容更加多样化。因此,通过分类网络获得的1000个类分数用于细化200级分数。
6.模型平均
使用多个模型来提高精度,并对所有模型的结果进行平均。自LeNet、AlexNet等以来一直使用这种技术。
7.边界框回归
边界框回归仅用于微调已在R-CNN中使用的边界框位置。
结果
·边界框拒绝(步骤2):30.9% ·从AlexNet更改为ZFNet(步骤3):31.8% ·从ZFNet改为VGGNet(步骤3):36.6% ·从VGGNet更改为GoogLeNet(步骤3):37.8% · +对象级注释进行预训练(步骤3):40.4% ·来自[Ref 60]的更多边界框建议+边缘:42.7% ·+ Def-Pooling Layers(步骤4)):44.9% ·VGGNet建议的+多尺度训练:47.3% ·+场景建模(步骤5):47.8% ·+边界框回归(步骤7):48.2% ·+模型平均(步骤6):50.7%!
与多模型多裁剪(multi-crop)的GoogLeNet相比,DeepID-Net的mAP高出6.1%。但是,正如我们所看到的,一些贡献实际上来自其他论文。然而,有两个最新的想法是对象级注释和形变约束池层(Def-Pooling Layers)的预训练。
参考文章 [2015年CVPR] [DeepID-Net] DeepID-Net:用于对象检测的可变形深度卷积神经网络
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ouyang_DeepID-Net_Deformable_Deep_2015_CVPR_paper.pdf [2017 TPAMI] [DeepID-Net] DeepID-Net:用于对象检测的可变形深度卷积神经网络 https://ieeexplore.ieee.org/document/7298854
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31545819/viewspace-2215636/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/31545819/viewspace-2215636/