【每日一网】Day28：DeepID-Net简单理解

最新推荐文章于 2024-04-08 09:41:37 发布

陈子文好帅

最新推荐文章于 2024-04-08 09:41:37 发布

阅读量297

点赞数 1

分类专栏：每日一网文章标签：神经网络深度学习计算机视觉人工智能算法

本文链接：https://blog.csdn.net/dudu199806/article/details/112528378

版权

每日一网专栏收录该内容

30 篇文章 5 订阅

订阅专栏

DeepID-Net

算法背景

论文中介绍了一种基于形变部件的卷积神经网络，采用一个新的形变约束池化层（def-pooling）模拟具有几何约束和惩罚的对象部分的变形。这意味着，除了直接检测整个对象外，检测可以帮助检测整个对象的对象部分也是至关重要的，作者将该模型应用在人脸识别上，相应的对deepid模型进行了一些更改和优化，更新后的两个版本分别称为deepid 2和deepid3

算法流程

在这里插入图片描述
从图中可以看出deepid框架和rcnn有很多相似之处。红色文本突出显示了RCNN中不存在的步骤，初始化proposal选用了ss算法，框架最后采用了BBox回归策略。

Bounding Box Rejection

通过selectIve search方法构件候选目标区域时，会产生大量的候选矩形框。论文中指出一副图片的平均矩形框数量大约是2400个，但是实际图片中目标对象可能会很少。由此会造成大量的消耗。
作者在论文提出可以先用R-CNN模型进行筛选一遍。在RCNN中的分类层输出200个类，然后每个bb盒经过RCNN模型后会得到每个类的score。如果最高分小于阈值T，则认为其是背景，就将其reject掉。论文中T取的是-1.1。经过这一步的操作，bb盒的数量会被剔除94%。这里在分类层设置成200类是因为比赛的输出是200个类。

DeepID-Net网络结构

在这里插入图片描述
（a）基准的深度模型使用的是ZF模型
（b）是具有def pooling的分支，这些层的输入是conv5，即为baseline的最后一个卷积层， conv5的输出会同时作为原来的fc6和fc7 的输入和defpooling的输入，并最后生成200个类的得分。对于图中马的裁剪图像区域，其理想的输出对于对象类别的马应该具有较高的得分，而对于其他类别的马应该有较低的分数。
（c）深度模型（zf）获得1000个类别的图像分类分数，其输入的是整个图像，图像分类的得分被用在上下文信息来细化bbox的分类得分。

预训练策略

在这里插入图片描述

包括RCNN在内的基于深度学习的对象检测中广泛使用的预训练方案如下
1、使用图像分类任务预训练深度模型，即使用来自imagenet的图像级注释和本地化数据训练数据。
2、微调用于目标检测深度模型，即使用来自对象检测训练数据的对象级别注释，步骤1中的学习参数仅用于初始化。
预训练和微调阶段的深度模型仅在最后一个全连接层中在预测标签方面有所不同（imagenet的分类任务有1000类，检测任务有200类）。除了用于分类的最后的全链接层以外，在预训练阶段的模型参数直接用于微调阶段的初始值。

def-pooling 层

在这里插入图片描述
这段对不起我没看懂(╥╯^╰╥)

形变约束池层（Def-Pooling Layers），每个光圈中心具有高激活值
对于形变约束路径，conv5的输出经过卷积层，然后经过形变约束层，然后有一个最大池化层（max pooling layer）。
简而言之，ac乘以dc和n的总和是上图中的5×5变形惩罚。惩罚是将对象部分放置在假定锚位置的惩罚。
形变约束池层（Def-Pooling Layers）学习具有不同大小和语义含义的对象部分的变形。
通过训练这个形变约束池层（Def-Pooling Layers），如果待检测对象的对象部分靠近它们的锚点，则在形变约束池层（Def-Pooling Layers）之后将给出高的激活值。这个输出将连接到200个类别分数以改进。