2D目标检测综述之提议生成和特征表示篇(三)

一、提议生成(Proposal Generation)

  1. 基于锚的方法

         监督提议生成器中有一个大家族叫做基于锚(anchor)的方法。随着区域提议网络(RPN)的提出,我们开始在深度卷积特征图上以监督的方式生成提议。如下图所示:

3dd657b22b6347b8aaf6673bcfe8ea65.png

RPN用一个3×3的卷积核在一张特征图上滑动,对于每一个位置,我们考虑k个锚框,它们的尺寸和比例各不相同。这些变化的尺寸和比例允许网络在特征图上匹配到不同比例的对象。 基于真实边界框(ground truth box),我们用最合适的锚框匹配到目标的位置,从而获得锚估计的监督信号。对于每个锚框,我们将提取出一个256维的特征向量并将其投喂到两个并列的分支中—分类层(classification layer)与回归层(regression layer)。分类分支负责估计每个对象对应类别的评分,回归分支负责从原始的锚框估计中,优化边界框的位置。边界框主要由4个值进行编码:(x,y,w,h)分别代表提议边界框的中心坐标以及宽和高。

     2 . 基于关键点的方法

         另一种提议生成方案是基于关键点的检测,可分为两类:基于角点的(cornor-based)方法和基于中心点(center-based)的方法。基于角点的方法通过合并从特征图中学习到的角点对检测边界框。

算法举例:

  • Denet:该模型以一种概率的方式重新定义了目标检测问题。它对目标的4个角点之一的分布进行了建模(左上角,右上角,左下角,右下角),并对每个对象的角点应用朴素贝叶斯分类器来估计边界框的置信度。这种基于角点的方法摒弃了锚框设计,并成为一种有效的检测方式。
  • CornroNet:在Denet的基础上,有人提出了CornorNet,它直接对角点上的分类信息进行建模。CornorNet使用新的特征嵌入方法和角点池化层对对左上角和右下角的信息建模,最终正确匹配属于相同对象的关键点。

          对基于中心点的方法,我们在特征图的每个位置预测该点称为目标中心点的概率,然后在无锚框先验的情况下,直接对高度和宽度进行回归。

模型举例:

  • CenterNet:首先通过角点预测边界框,然后基于初始的预测结果,预测中心概率,以排除掉简单负样本。与基准模型(baseline)相比,CenterNet获得了一个显著的改进。这些无锚方法是未来重要的研究方向。

二、特征表示学习

       特征表示学习是整个检测框架的重要组成部分。目标位于复杂的环境中,在尺度和纵横比上有很大差异。为了获得良好的检测性能,需要训练出鲁棒性和判别性极好的嵌入特征。我们将这些特征表示策略分为3类:多尺度特征学习、上下文推理和可变形特征学习。

  1. 多尺度特征学习:基于深度卷积网络的典型对象检测算法,如Fast R-CNN和Faster R-CNN,仅使用单层特征图检测对象。然而,在单个特征图上检测跨越多个范围的尺寸和纵横比的目标是具有挑战性的。深度卷积网络在不同层中学习分层特征,这些特征捕获了不同尺度的信息。具体来说,具有丰富空间信息的浅层特征有着更高的分辨率和更小的感受野,因此适合检测小目标。而深层网络中的特征含有丰富的语义信息,具有更小的分辨率和更大的感受野,更适合检测较大的对象。解决多尺度分类的方法有以下四种:

79220439066a4f5c8b9d175bee05e1aa.png

  • 图像金字塔(上图左上角):最直观的想法是将输入图像调整为不同的比例(图像金字塔),并训练多个检测器,每个检测器负责一定范围的比例。在测试过程中,图像被调整到不同的比例,然后使用多个检测器,并合并检测结果。
  • 集成特征(上图左下角):另一种方法是通过组合多个层中的特征来构建单一的特征图,基于新的特征图进行最终的预测。通过融合空间信息丰富的浅层特征和语义信息丰富的深层特征,可以检测不同尺度的对象。由于不同层的特征范数具有较高的方差,因此需要进行特征归一化。
  •  预测金字塔(上图右上角):SSD将多个层中的粗糙和精细特征结合在一起。在SSD中,从多个层分别进行预测,其中每个层负责一定规模的对象。后来有许多模型都基于这一原则来检测多尺度对象。
  • 特征金字塔(上图右下角):为了结合集成特征和预测金字塔的优点,有人提出了特征金字塔网络(FPN),该网络以自顶向下的方式将不同比例的特征与横向连接的部分集成,以构建一组比例不变的特征图。在这些特征金字塔上,学习多个尺度相关的分类器。具体来说,是使用语义丰富的深层特征来增强空间信息丰富的浅层特征。这些自上而下的特征和横向的特征通过元素级别的求和或者连接运算组合在一起,用小卷积降低了维度。如下图所示:

c16f172efe5042d384066e2aad24620b.png

       2 . 上下文推理:上下文信息在目标检测中起着重要的作用目标往往出现在特定环境中,有时也与其他对象共存。举个例子,鸟通常在天空飞行。因此有效的使用上下文信息有助于提高检测性能,特别是对于检测线索不足的对象(小目标、遮挡等)。学习目标和周围上下文的关系可以提高检测器理解场景的能力。在本节中,我们从两个方面回顾目标检测中的上下文推理:

  • 全局上下文推理:是指从整个图像中的语境进行学习,与试图将图像中的特定区域分类为目标的检测器不同,这里的想法是使用来自图像剩余部分的信息对特定的RoI进行分类。例如,从图像中检测棒球对传统检测器是一个挑战,因为会与其他球类混淆。但如果是用图像其余部分的上下文信息(球场、球员、球棒),则更容易识别棒球目标。
  • 局部上下文推理:是指编码局部区域周围的上下文信息,学习目标和它周围区域的联系。

      3 . 可形变特征学习:一个好的检测器需要多物体的非刚性形变具有鲁棒性。在深度学习时代以前,基于部分形变的模型(DPM)成功地运用到了目标检测中,DPM用一个可形变的编码方法通过许多局部组件表示一个目标。使得检测器对非刚性目标的形变具有鲁棒性。现在深度学习的方法也开始具备这样的能力。DeepIDNet提出了一种形变感知的池化层编码不同类别目标的形变信息。还有一些人设计了形变卷积层,该卷积层自动学习位置偏移,以优化特征图中常规采样位置的采样信息。

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值