Multi-scale Convolutional Neural Networks for Crowd Counting
论文地址
论文翻译
ABSTRACT
~~~~~~ 由于尺度的变化,静态图像的人群计数是一个具有挑战性的问题。最近,深度神经网络被证明在这一任务中是有效的。然而,现有的基于神经网络的方法往往使用多列多网络模型来提取尺度相关特征,这使得优化和计算变得更加复杂。为此,我们提出了一种新的多尺度调节体积神经网络(MSCNN)来进行单幅图像的众包计算。该网络以多尺度团为基础,能够在单列结构中生成与尺度相关的特征,从而获得较高的人群计数性能,在实际应用中具有较高的精度和成本效益。实验结果表明,该方法在参数数目少的情况下,在精度和鲁棒性方面均优于现有方法。
1. INTRODUCTION
~~~~~~ 人群计数的目的是估计从监控摄像头收集到的图像或视频中聚集的人数。在旅游景点和公共集会等情况下,过度拥挤会导致人群拥挤、堵塞甚至踩踏。利用计算机视觉技术进行准确、鲁棒的人群计数估计对公共安全具有重要意义。
~~~~~~ 现有的人群计数方法通常可分为两类:基于检测的方法和基于回归的方法。
~~~~~~ 基于检测的方法通常假定可以通过使用给定的视觉对象检测器来检测和定位人群图像上的每个人,并通过累积每个检测到的人来获得计数结果。然而,这些方法需要大量的计算资源,在实际场景中往往受到人员遮挡和复杂背景的限制,鲁棒性和准确性相对较低。
~~~~~~ 基于回归的方法直接从图像中回归人群计数。Chan等人使用手工功能将人群计数任务转换为回归问题。随后的工作提出了更多与人群相关的特征,包括基于片段的特征,基于结构的特征和局部纹理特征。 Lempit-sky等提出了一种基于密度的算法,该算法通过整合估计的密度图来获得计数。最近,深度卷积神经网络已被证明可以有效地进行人群计数。Zhang等人提出了卷积神经网络(CNN),以替代地学习人群密度和人群计数。Wang等人直接使用基于CNN的模型将图像补丁映射到其人员计数值。这些改进算法能较好地抑制尺度变化问题,但仍存在两个不足:
- 多列/网络需要预先训练的单网络来进行全局优化,这比端到端训练更为复杂。
- 多列/网络引入了更多的参数以消耗更多的计算资源,这使其难以实际应用。
~~~~~~ 本文中,我们提出了一种多尺度卷积神经网络(MSCNN)来提取与尺度相关的特征。我们没有引入更多的列或网络,而是仅引入了与朴素的Inception模块相似的具有不同内核大小的多尺度Blob。 我们的方法在使用少量参数的情况下,优于ShanghaiTech和UCFCC50数据集上的最新方法。
2. MULTI-SCALE CNN FOR CROWD COUNTING
~~~~~~ 由于视角失真,人群图像通常由各种大小的人物像素组成。单网络很难用相同大小的内核组合来应对规模变化。在一项工作中,提出了一个Inception模块来处理各种规模的视觉信息,并将其汇总到下一个阶段。出于此目的,我们设计了一个多尺度卷积神经网络(MSCNN),以从原始图像中学习与尺度相关的密度图。
2.1. Multi-scale Network Architecture
~~~~~~ MSCNN的概述如图1所示,包括特征重映射,多尺度特征提取和密度图回归。第一卷积层是传统的卷积层,具有单个大小的内核以重新映射图像特征。多尺度斑点(MSB)是一种类似Inception的模型(如图2所示),用于提取与尺度相关的特征,它由多个具有不同内核大小(包括9×9、7×7、