ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding
原文:https://arxiv.org/pdf/1811.11968v2.pdf
本文将注意网络和可变性卷积网络用于人群理解之中。
摘要
我们提出了一种注意内射可变形卷积网络adcrowdnet,用于人群理解,可以解决高拥挤噪声场景的精度下降问题。adcrowdnet包含两个连接的网络。一种称为注意地图生成器(amg)的注意感知网络首先检测图像中的人群区域,并计算这些区域的拥挤程度。基于检测到的人群区域和拥塞先验,多尺度可变形网络密度地图估计器(dme)生成高质量的密度地图。通过注意感知训练方案和多尺度可变形卷积方案,该adcrowdnet能够更有效地捕获群体特征,并对各种噪声具有更强的抵抗能力。我们已经在四个受欢迎的人群计数数据集(上海理工大学、ucf cc 50、世博会10和ucsd)和一个额外的车辆计数数据集trancos上评估了我们的方法,我们的方法压倒性地优于所有这些数据集上的现有方法。
主要内容
本文针对人群理解问题,提出了一种能够处理高度拥挤的噪声场景的方法。为了实现这一目标,我们设计了一种注意力内射可变形卷积神经网络adcrowdnet,该网络由视觉注意机制和多尺度可变形卷积方案构成。视觉注意机制被精心设计以减轻输入中各种噪声的影响。针对拥挤环境,提出了一种多尺度可变形卷积方法。视觉注意机制的基本原理是利用输入图像中的相关信息而不是所有可用信息来计算神经反应。这种聚焦于输入特定部分的原理已经成功地应用于图像分类[10]、语义分割[19]、图像去模糊[18]和视觉姿势估计[5]的各种深度学习模型中,这也适用于感兴趣区域包含在嘈杂的场景中,人群需要被识别并突出显示出来。多尺度可变形卷积方案以动态采样点信息作为输入,而非均匀分布点信息,具有建模复杂几何变换和多样人群分布的能力。该方案很好地适应了摄像机透视图和现实世界中不同人群分布所引起的失真特性,从而保证了拥挤场景下更精确的人群密度图。
方法
本文提出的网络主要包括,AMG和DME.AME是一种基于完全卷积结构的注意力图生成分类网络,而DME是一种基于可变形卷积层的多尺度密度图生成网络。
AMG结构
注意图和输入图像之间的像素级积产生dme网络使用的输入数据。
注意图生成器的体系结构
DME
实验结果