Occluded Pedestrian Detection Through Guided Attention in CNNs
based on the FasterRCNN
1.介绍
为了在一个连贯的模型中处理广泛的频繁和不太频繁的遮挡模式,我们提出了不同的注意机制,这就使得检测器更加注意可见的身体部位。这些注意机制是由基于cnn的不同通道的检测器。注意力机制在不同信道学习适当的注意力参数从而有效地处理不同的遮挡模式。
1.1贡献
1.我们分析了行人检测器中身体区域与不同CNN信道特征之间的关系,发现其中许多区域是可定位和可解释的。
2.我们通过在FasterRCNN结构中增加一个额外的关注网络,将 channel-wise注意机制应用于不同的遮挡模式。探讨了不同的注意指导,包括自我注意、可见框注意和部分注意。我们的方法只对普通FasterRCNN架构做了微小的修改,因此易于实现和训练。
3.效果好 CityPersons:8pp gain比FasterRCNN Caltech:比最先进的领先4pp。
这是第一个处理遮挡工作的FasterRCNN架构
1.2相关工作
Pedestrian detection with CNNs
早期based on the RCNN structure:依赖于高质量的外部建议框proposal。 FasterRCNN已经成为事实上的标准架构,允许端到端学习
Occlusion handling for pedestrian detection.
最常用的策略是学习一系列检测器,每个对应每个手工设定的遮挡模式。应用不同的特征,包括手工特征和深度卷积特征,最后通过这些集成模型的输出的融合来决定。这些方法的缺点是每个部分/遮挡模式都是独立学习的,而且在测试时应用这些模型非常耗时。还有一些研究提出了以关节方式学习多遮挡模式的方法,节约了训练和测试的时间,然而最终的决策仍然是通过对多个部分的分数进行积分来做出的,这使得整个过程更加复杂和难以训练。相比之下,我们学习一个持续的注意力向量,既容易训练,也有低的开销。
Attention mechanisms in CNNs
提出了 squeeze-and-excitation networks压缩-激励网络来模拟卷积特征通道间的相互依赖关系。
channel-wise attention是自我引导的,没有外部信号。然而在这篇文章中,将展示外部指导帮助提升channel-wise attention机制性能。
2.Body Parts and Channel Features身体部位和通道特征
Convnets卷积网络已被证明有能力学习对象检测的代表特征,并且最近的一些工作通过视觉化隐藏神经元的激活来分析其可解释性。
这里研究了通道是否与行人人体部位有关。许多通道呈现一些高度的激活模式,这些激活模式与特定的身体区域或身体部位有关。
为了用统计学的方法更好地理解身体各部分与各通道之间的关系,在每个二值通道特征图和部分检测热图之间实现 pixel-wise XOR操作。each pair每对的相关值是由XOR映射中一个值的百分比来度量的。我们发现,对于每幅图像,超过30%的通道与14个部分检测热图其中之一显示强相关(相关值≥60%)。
这一观察结果鼓励我们探索遮挡行人检测的通道式注意的可能性,因为这种注意机制可以更多地关注可见的身体区域,而较少地关注遮挡区域。
3.Guided Attention in CNNs for Occlusion Handling(CNN遮挡中的引导注意处理)
主要挑战就是人体遮挡模式的多样性。在卷积神经网络中使用 channel-wise attention,使网络在一个相关模型中学习不同遮挡模式的更有代表性的特征。