DeepID-Net——形变约束池化层（对象检测）

最新推荐文章于 2022-06-25 08:54:55 发布

cjea42103

最新推荐文章于 2022-06-25 08:54:55 发布

阅读量360

点赞数

文章标签：人工智能

在本文中，简要回顾了DeepID-Net，介绍了一种基于形变部件的卷积神经网络（CNN）。采用一个新的形变约束池化层(def-pooling)模拟具有几何约束和惩罚的对象部分的变形。

这意味着，除了直接检测整个对象外，检测可以帮助检测整个对象的对象部分也是至关重要的。它是ILSVRC 2014中的第一个用于对象检测任务的文章。它已在2015年发表在CVPR [1]和2017年TPAMI [2]论文中，共引用了约300篇文章（SH Tsang @ Medium）。

DeepID-Net

黑色的步骤实际上是R-CNN中存在的原有东西。实际上红色的步骤没有出现在R-CNN中。

我将在上图中提及每一个步骤，并在文章结尾处给出结果。

步骤

（1）选择性搜索

（2）边界框拒绝

（3）使用对象级注释进行预训练

（4）形变约束池化层（Def-Pooling Layer）

（5）场景建模

（6）模型平均

（7）边界框回归

1.选择性搜索

DeepID-Net——形变约束池化层（对象检测）

选择性搜索

（1）首先，颜色相似性、纹理相似性、区域大小和区域填充被用作非基于对象的分割。因此，我们获得了许多小的分割区域，如图的左下角所示。

（2）然后，使用自下而上的方法将小的分割区域合并在一起，以形成更大的分段区域。

（3）因此，如图像所示，生成大约2K个区域提议（边界框候选）。

2. 边界框拒绝

R-CNN用于拒绝最有可能是背景的边界框。

3.使用对象级注释进行预训练

DeepID-Net——形变约束池化层（对象检测）

对象级注释（左），图像级注释（右）

通常，预训练是基于图像层次的注释。当对象在图像中太小时，其效果不好，因为对象应占据由选择性搜索创建的边框内的大区域。

因此，预训练是在对象级注释上进行的。深度学习模型可以是任何模型，例如ZFNet、VGGNet和GoogLeNet。

4. 形变约束池化层（Def-Pooling Layer）

DeepID-Net——形变约束池化层（对象检测）

整体架构的更多细节

比如我们使用ZFNet，在conv5之后，输出将通过原始FC层fc6和fc7，以及一组转换和建议的形变约束池化层（Def-Pooling Layer）。

DeepID-Net——形变约束池化层（对象检测）

形变约束池层（Def-Pooling Layers），每个光圈中心具有高激活值

DeepID-Net——形变约束池化层（对象检测）

形变约束（Def-Pooling）方程式

对于形变约束路径，conv5的输出经过卷积层，然后经过形变约束层，然后有一个最大池化层（max pooling layer）。

简而言之，ac乘以dc和n的总和是上图中的5×5变形惩罚。惩罚是将对象部分放置在假定锚位置的惩罚。

形变约束池层（Def-Pooling Layers）学习具有不同大小和语义含义的对象部分的变形。

通过训练这个形变约束池层（Def-Pooling Layers），如果待检测对象的对象部分靠近它们的锚点，则在形变约束池层（Def-Pooling Layers）之后将给出高的激活值。这个输出将连接到200个类别分数以改进。

5.场景建模

在ILSVRC中的对象检测任务中，只有200个类别。ILSVRC还有一项分类竞争任务，用于对1000个类别对象进行分类和本地化。与对象检测任务相比，内容更加多样化。因此，通过分类网络获得的1000个类分数用于细化200级分数。

6.模型平均

使用多个模型来提高精度，并对所有模型的结果进行平均。自LeNet、AlexNet等以来一直使用这种技术。

7.边界框回归

边界框回归仅用于微调已在R-CNN中使用的边界框位置。

结果

增量结果 ·具有选择性搜索的R-CNN（步骤1）：29.9％mAP（平均预测）

·边界框拒绝（步骤2）：30.9％ ·从AlexNet更改为ZFNet（步骤3）：31.8％ ·从ZFNet改为VGGNet（步骤3）：36.6％ ·从VGGNet更改为GoogLeNet（步骤3）：37.8％ · +对象级注释进行预训练（步骤3）：40.4％ ·来自[Ref 60]的更多边界框建议+边缘：42.7％ ·+ Def-Pooling Layers（步骤4））：44.9％ ·VGGNet建议的+多尺度训练：47.3％ ·+场景建模（步骤5）：47.8％ ·+边界框回归（步骤7）：48.2％ ·+模型平均（步骤6）：50.7％！

与多模型多裁剪(multi-crop)的GoogLeNet相比，DeepID-Net的mAP高出6.1％。但是，正如我们所看到的，一些贡献实际上来自其他论文。然而，有两个最新的想法是对象级注释和形变约束池层（Def-Pooling Layers）的预训练。

参考文章 [2015年CVPR] [DeepID-Net] DeepID-Net：用于对象检测的可变形深度卷积神经网络

https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ouyang_DeepID-Net_Deformable_Deep_2015_CVPR_paper.pdf [2017 TPAMI] [DeepID-Net] DeepID-Net：用于对象检测的可变形深度卷积神经网络 https://ieeexplore.ieee.org/document/7298854

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/31545819/viewspace-2215636/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/31545819/viewspace-2215636/

cjea42103

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DeepID-Net——形变约束池化层（对象检测）

在本文中，简要回顾了DeepID-Net，介绍了一种基于形变部件的卷积神经网络（CNN）。采用一个新的形变约束池化层(def-pooling)模拟具有几何约束和惩罚的对象部分的变形。这意味着，除了直接检测整个对象...
复制链接

扫一扫