MDFN: Multi-scale deep feature learning network for object detection
用于目标检测的多尺度深层特征学习网络
请结合论文共食。
3 Deep feature learning network
3.1 deep feature extraction and analysis
假设:
- 这些特征图应该能够提供精细的细节,尤其是对于较早的图层而言;
- 转换特征图的功能应扩展到足够深的层,以便可以将对象的高级抽象信息构建到特征图中;
- 特征图应包含适当的上下文信息,以便可以准确推断出被遮挡的对象,小对象,模糊或重叠的对象并对其进行稳健的定位。
因此,浅层和深层的特征对于目标识别和定位起着必不可少的作用。
为了有效地利用检测到的特征信息,应考虑另一约束条件,以防止特征被改变或覆盖。 我们声称,跨层的特征传输应降低特征因漂移误差而改变或被无关内容所覆盖的可能性,并应最大程度地减少冗余和噪声的累积,尤其是在深层中。 因此,网络本地部分内的特征传输或直接特征输出应该是有效使用此信息的更好解决方案。 为此,我们提出了以下多尺度深度特征提取和学习方案,该方案将支持上述强假设并满足相关条件。
m表示高级层,Ψm是m层相应的输出特征图。函数Fj将Ψj-1映射到同一层j中的多尺度空间响应。F由特征变换函数S作用,用w进行加权,高层产生的所有特征信息将由函数T直接送入最终检测层。
上面的函数(4),(5)和(6)构成了一个深度多尺度特征学习方案。它考虑了由具有高分辨率的浅层生成的特征图,这些高分辨率代表对象的精细细节。 这符合第一个提到的假设。 Fm专为网络的深层而设计,可将深层抽象引入输出特征图中。 此外,单个深层中的多尺度感受野在不同大小的上下文中对最重要的特征和对象敏感,这使得输出足够强大以支持检测和定位,并直接响应了强烈的建议。 同时,几个连续的深度Inception单元提供了以下可能性:来自中间级别的特征图可以从较低和较高的对应位置检索上下文信息。 这有利于检测重叠对象的确切位置,这些对象必须被可靠地推断出是被遮挡的,小的,甚至是模糊的或饱和的对象[33]。 满足上述假设2)和3)。
(我的理解是:这些Inception模块加在基础网络的中间层,在后面才看懂,不是这样的)
3.2 Deep feature learning inception modules
(7)和(8)的表达式实际上可以分别通过以下信息平方和三次运算来近似。
3.3 Multi-Scale object detection scheme
- 在我们的模型中,给每个给定位置k个盒子,计算c类分数和每个盒子四个顶点相对于默认盒子的四个偏移量。 最终,为特征图内的每个位置提供了总共k(c + 4)个过滤器。 因此,每个尺寸为m×n的特征图的输出数量应为k(c + 4)mn。 在[10]中已证实,使用各种默认的框形状将有助于为单发网络预测框的任务,从而提高了对象定位和分类的准确性。 我们采用这种多盒技术作为我们多尺度方案的第一个属性。
- 我们的深度特征学习起始模块被应用在四个连续的高级层单元中。 这四个层单元将其输出深度特征直接传输到最终预测层,这将信息传输完全缩短。 从训练的角度来看,这些缩短的连接使网络的输入和输出彼此更接近,这有益于模型的训练,即使深入的想法使高层层次变得复杂[11]。 高级层和最终预测层之间的直接连接缓解了梯度消失的问题,并增强了特征传播[11]。 另一方面,四个高级层单元的序列通过语义和上下文信息获取两种方式最大化了深度特征提取和表示的能力。 首先,它使后三个高层从先前的较低层获取上下文信息。 其次,同一