用于目标检测的并行金字塔网络——PFPNet(解读)(原论文)
网络模型
PFPNet中的可视化通道不仅保留了对象的精细细节,还保留了与精确对象位置重叠的一致的高激活值。
模型对比
使用单尺度特征层进行视觉识别的变体DCNN模型及其对特征金字塔的扩展:自下而上的DCNN模型(a),沙漏网络(b)和基于SPP的网络(c); 文中的网络模型(d)可以被视为(c)的扩展版本,用于多尺度物体检测。
文中提出并行特征金字塔网络(parallel FP network,PFPNet),通过扩大网络宽度来构建FP。如图中(d)所示,首先使用空间金字塔池(SPP)来生成具有不同大小的特征映射的宽FP池。 接下来,将并行的特征映射应用于FP池的特征映射,这使得它们都具有相似级别的语义抽象。然后,多尺度上下文聚合(MSCA)模块将这些特征映射的大小调整为统一大小,并聚合它们的上下文信息以产生最终FP的每个级别。模型有效地组合了不同规模的上下文信息。由于我们FP的特征图具有相似的抽象级别,因此可以有效地降低FP级别之间的性能差异。
模型详解
如图中(d)所示,将FP排成一行,应用具有相同深度的变换函数来生成FP的每个级别。然后,使用所提出的MSCA模块聚合不同类型的上下文信息。
Base Network
PFPNet基于VGGNet-16 。在PFPNet中,VGGNet-16的最后一层全连接层去掉,换成卷积层对特征进行二次采样,修改后的VGGNet-16在ILSVRC数据集上进行预训练。
Bottleneck Layer
对于特征变换,使用Bottleneck Layer。为了提高计算效率,在3×3卷积之前应用1×1卷积以减少信道数量。无尺度/移位的批量标准化和线性整流单元(ReLU)用于输入标准化和激活。1×1卷积产生具有C / 2通道的特征图,其中C是Bottleneck Layer的输出通道的数量。
FP Pool
FP Pool层不仅将特征映射的空间大小减小到特定大小,而且还可以聚合子区域中的上下文先验。利用具有各种尺寸的合并子区域的SPP层来构建用于对象检测和分割的FP。
使用SPP层来构建FP池,其富含空间信息和多尺度语义对象信息。图示出了用于多尺度物体检测的PFPNet的架构。
MSCA
将不同尺度的背景信息结合起来促进视觉分类任务。通过求和组合特征图从多个特征收集上下文信息。然而,黄等人。 坚持认为求和会削弱网络中的信息流。他们引入了另一种方法,该方法涉及直接连接特征图以保留特征图层之间的最大信息流。 PFPNet使用级联来收集FP池中的上下文信息。