Multi-Scale Attention Network for Crowd Counting:用于人群计数的多尺度注意网络

Multi-Scale Attention Network for Crowd Counting

论文地址:
https://arxiv.org/pdf/1901.06026.pdf

Abstract(摘要)

在人群计数数据集中,根据人们与摄像机的距离,人们会出现在不同的尺度上。为了解决这个问题,我们提出了一种新的多分支尺度感知注意力网络,该网络利用卷积神经网络的层次结构,并在一次前向传递中产生来自不同层次的多尺度密度预测。为了将这些图整合到我们的最终预测中,我们提出了一种新的软注意机制,它可以学习一组门罩。此外,我们引入一个尺度感知的损失函数来规范不同分支的训练,并引导它们在特定的尺度上专业化。由于这种新的训练需要对每个头部的大小进行标注,我们也提出了一种简单而有效的技术来自动估计它们。最后,我们提出了对这些成分的消融研究,并将我们的方法与4个人群计数数据集的文献进行比较:UCF-QNRF、shanghai Tech A & B和UCF_CC_50。我们的方法在所有这些方面都达到了最先进的水平,在UCF-QNRF(+25%的误差减少)上有了显著的改进。

1. Introduction

人群计数是预测图像中出现的人数的任务。近年来,它吸引了学术研究界越来越多的兴趣。计算机视觉界已经通过多种方式解决了这一任务:早期的工作要么基于身体或头部检测器的输出进行计数[Detection of multiple, partially occluded humans in a single image by bayesian combination of edgelet part detectors、Automatic adaptation of a generic pedestrian detector to a specific traffic scene、Density-aware person detection and tracking in crowds],要么学习从图像的全局或局部特征到预测计数的映射[Privacy preserving crowd monitoring: Counting people without people models or tracking.、Bayesian poisison regression for crowd counting、Crowd counting using multiple local features.]。最近,由于卷积神经网络具有学习局部模式的能力,人们已经开始学习密度图,不仅可以预测计数,还可以预测人群的空间范围[MCNN、 A deep convolutional network for dense crowd counting、Towards perspective-free object counting with deep learning、Switching convolutional neural network for crowd counting.、 Crowd counting via scale-adaptive convolutional neural network.、Divide and grow: Capturing huge diversity in crowd images with incrementally growing cnn、 Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes.、Decidenet: Counting varying density crowds through attention guided detection and density estimation、 Crowd counting via adversarial cross-scale consistency pursuite、 Composition loss for counting, density map estimation and localization in dense crowds.、Scale aggregation network for accurate and efficient crowd counting]。
尽管取得了这些进展,但由于背景杂波、严重遮挡和尺度变化,人群计数仍然是一项具有挑战性的任务。其中,规模是近期文献中关注最多的问题[7 - 14,18]。

在本文中,我们处理尺度的概念,处理视觉变化的人相对于他们与摄像机的距离的外观。如图1a-b所示,两个相似的个体可以根据他们在场景中的相对位置出现非常不同的情况。为了解决这一问题,我们提出了一种新的尺度感知深度卷积神经网络。卷积神经网络的层次结构逐步扩展网络特征图的接受域,隐式捕获不同尺度的信息。受FCN[19]和SSD[20]中跳跃分支的启发,我们提出直接从这些中间特征映射生成多个密度映射。由于最后一层卷积生成的特征图具有最大的接受域,它携带了高级语义信息,可用于定位大型头部;另一方面,由中间层生成的特征图在计算极小的头部(即人群)时更加准确和稳健,它们包含了关于人的空间布局的重要细节和低级的纹理模式
在这里插入图片描述

为了聚合网络不同层生成的密度图,我们提出了一种新的软注意机制,该机制可以学习一组gating masks,每个mask对应一个密度图。我们的mask从最后一层卷积层预测的密度图中学习处理较大的头部,以及从早期层预测的较小的头部。虽然这可以通过对最终密度估计提供监督而得到训练,但我们发现,通过监督中间密度估计也可以提高性能。我们提出了一种新的尺度感知损失函数,以进一步规范我们的多尺度估计,并指导他们专门针对特定的头大小。此外,由于人头大小信息在任何人群计数数据中都不存在,我们还提出了一种新的自动估计人头大小的方法。我们的方法结合了[7]的几何自适应技术和一种新的边界盒自适应技术。

在我们的实验中,我们的方法在四个主要的人群计数数据集上取得了最先进的结果:UCF- qnrf [17], shanghai Tech A & B[7]和UCF CC 50[21],在UCFQNRF上有很大的改进(误差减少超过25%)。此外,在我们的消融研究中,我们分析了由我们网络的不同层生成的密度图,并显示每个层都有不同的尺度变化。

综上所述,我们做出了以下贡献:
1.一种新的网络架构,从其中间层生成多尺度密度图(第3节);
2. 一种新的尺度感知注意机制将这些map聚合到我们的最终预测中(第3.2节);
3.一个新的尺度感知的损失函数,进一步帮助在训练期间规范这些地图(第3.3节);
4. 这是一种简单而有效的技术,可以完全自动地估计图像中每个头部的大小(第3.4节)。

<

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值