论文解读《Crowd Density Estimation Using Fusion of Multi-Layer Features》T-ITS2020

Crowd Density Estimation Using Fusion of Multi-Layer Features

Xinghao Ding , Member , IEEE, Fujin He, Zhirui Lin, Y u Wang, Huimin Guo, and Y ue Huang

Abstract:

人群统计在视频监控、交通监控、公共安全、城市规划等诸多工作中都具有重要意义,是智能交通系统的重要组成部分。

Q1:

然而,由于遮挡、透视变形、复杂的背景和不同的尺度,实现精确的人群计数和生成精确的密度图仍然是具有挑战性的任务。

Q2:

此外,现有的方法大多只关注人群计数的准确性,没有考虑密度分布的正确性;也就是说,在生成的密度图中有许多假阴性和假阳性。

Method

为了解决这一问题,我们提出了一种新型的编码-解码器卷积神经网络(CNN),它融合了编码和解码子网络中的特征图,从而生成更合理的密度图,更准确地估计人数。

此外,我们还介绍了一种新的评估方法,称为斑块绝对误差(PAE),它更适合于测量密度图的准确性。

在几个现有的公共人群计数数据集上的广泛实验表明,我们的方法取得了比目前最先进的方法更好的性能。

最后,结合实际中的跨场景人群统计,对模型进行了评价。结果表明,该方法在跨场景数据集中具有良好的性能。

 

Introduction

随着社会的发展,城市人口密度的不断增加,导致大量的过度拥挤的情况下,比如在地铁站,公交车站、机场、购物中心、旅游景点或其他地方用于大型活动,有效的人群管理是有意义的对于智能交通系统[1],[4],[14],[47]。为了避免过度拥挤的问题,需要监控人群的强度,及时反应,疏散人群。

随着视频监控的普及和视觉技术的部署,人们对各种环境下的人群场景分析产生了浓厚的兴趣。本文主要分析了在交通监控、公共安全、城市规划、流量监控[38]、[39]等方面具有重要应用的人群计数和高质量的密度图生成。

值得一提的是,人群计数是一个与语义分割完全不同的任务。语义分割是一种精确的像素级分类任务,需要精确的像素级标签,这与人群计数不同。人群计数被构造成一个复杂的模糊函数映射问题,而(人群密度)分布图是目前广泛使用的估计量(人群估计方法) [6]、[24]、[35]之一。在我们提出的任务中,我们只需要计算一个区域有多少人,而不需要生成目标的像素级轮廓。

传统人群统计算法的分类包括基于模型的检测和基于特征的回归两种模式。基于模型的检测算法分别对人进行检测和计数,通常基于运动特征、前景分割、轮廓/形状匹配和对象识别方法[17]、[22]、[40]。通常,行人被认为是一个单独的实体,可以被一个滑动窗口[12],[27]探测器检测到。底层的手工特征(如HOG[9]、SIFT[24]和haar-like[23])用于训练行人的分类器。另一方面,基于特征的回归方法提取前景像素、兴趣点、纹理和由这些特征形成的向量等特征,然后学习一个回归函数来估计人群密度或人数[5]、[7]、[16]、[21]、[44]。在[7]中,作者发现时空信息对于提高人群计数的性能是有效的。在此基础上,利用时空信息进行多线性回归学习,实现准确的人群计数。但这些传统的[5]、[7]、[16]、[21]、[44]方法在复杂情况下表现较差,存在明显的遮挡、光照不均匀、透视效果和尺度变异性大等问题。

最近提出的深度学习方法[13],[29],[30],例如基于CNN的方法[11],[43],与传统的基于手工特征的人群计数算法相比,带来了很大的性能提升。受多任务学习[41]、[45]、[50]在各种计算机视觉任务中的成功启发,Zhang等人[46]、Simonyan和Zisserman[37]结合了人群计数与其他方法如全局人数估计或人群密度水平估计等取得了显著的改进。

透视效果和密度的变化使得人群计数的任务非常具有挑战性。针对这一问题,FCN[25]提出了一种多尺度平均预测方法。最近提出的集成方法如MCNN[49]、Hydra CNN[28]、Crowdnet[3]、Switch-CNN[32]等,虽然采用了多列或分而治之的策略,对规模变化具有适应性,但这些方法在一定程度上解决了规模问题。此外,[33]和[38]中引入的CP-CNN等上下文感知方法将全局和局部上下文信息合并到卷积网络中,以减少估计误差。

但是我们注意到,结构复杂的CNN模型并不能很好地处理多尺度问题,还需要改进。此外,现有的方法大多只关注人群计数的准确性,忽略了密度分布的正确性。如图1所示,如果焦点仅在总计数上,CP-CNN[38]可以准确估计计数,但密度分布存在明显误差。具体来说,由于假阴性数与假阳性数几乎相同,因此得到的准确率接近于最优,图1中的红色方框和红色圆圈直观地反映了这一点。很明显,红盒子里什么也没有,但是cnn认为里面有很多人。相比之下,红色的圆圈里有很多人,但是CP-CNN漏掉了很多人。

此外,平均绝对误差(MAE)不足以估计密度分布。因此我们引入了Patch绝对误差(PAE)来提高计数和密度图之间的估计精度。PAE定义为图像patch的总绝对偏差。图像patch越小,PAE对密度图的计数正确性和合理性的评估就越准确。

在人群图像(如图1所示)中,透视畸变和遮挡问题是常见的。这些干扰使图像中头部的大小发生明显变化,头部的一些细节不能很好地捕捉到。因此,传统的手工特征提取算法难以在密集的人群图像中提取出详细的信息并取得有效的性能。基于cnn的算法得益于其强大的特征提取能力,通常可以比传统的手工方法学习到更有效的特征表示。它为密集的人群计数带来了巨大的性能提升。因此,我们也考虑使用CNN来实现人群计数的高精度。

此外,现有的方法使用池层,这导致低分辨率和功能损失。在[15]中,作者观察到更深的层次对包含丰富语义信息的高层知识进行编码,而较浅的层次则捕获包含丰富空间信息的低层特征。显然,结合浅层和深层的信息是最好的选择。因此,我们提出了一种新的对称CNN框架,充分利用多层特征,减少计数误差,生成更合理的密度图。在我们的网络中,我们充分利用了编码器和解码器阶段的信息。同时,我们使用几个上采样操作来实现输入图像的高分辨率密度图。这种网络结构实现了多层特征的有效组合,增强了特征的传播,促进了特征的重用。本研究的主要贡献总结如下:

•我们提出了一种新颖的对称CNN架构来训练端到端网络,通过结合不同层的特征来预测人群密度图。该体系结构可以提高特征的利用率,减少生成的密度图中的假阴性和假阳性的数量。在几个主要的人群统计数据集上进行了大量的实验,这些数据集具有挑战性和代表性。实验结果表明,与现有方法相比,该方法具有更好的性能。

•我们引入了一种新的评估P AE方法来测量生成的密度图的质量。PAE不仅关注人群统计的准确性,也关注密度图的合理性。

论文组织如下。在第二部分中,我们详细描述了所提出的方法。在第三节中,给出了得到的实验结果,并给出了相应的分析。在第四部分,我们给出了一个简短的结论。

Methodology

与输出为人数的回归方法相比,输出为输入图像密度图的回归方法可以为人群分析提供更多的信息。密度图的分布可以用来分析图像中的异常情况。因此,对于给定的图像,我们在这里提出的网络将输出图像的密度图,然后通过积分程序[49]得到人的数量。因此,我们首先描述如何生成使用图像的头部标注的人群密度图。

与语义分割相比,人群计数中的标注过程是不同的。标签是分散在目标内部的。由于复杂的人体姿态,正确的标记散射体可以定位在目标的任何部分。所以它很容易受到标签制造商的影响。不同的标签制造商可以为监视图像中的相同目标生成不同的标签。另外,在高密度区域也存在一些标注错误。因此,该方法解决了这些独特的挑战在人群计数如下:

delta函数δ(x−xi)用来表示在像素xi位置是人头。因此,我们可以用N个头的标签来表示一个图像,如下[49]所示:

Hx= i=1nδ(x-xi)

 

然后,一个高斯内核Gσ用于描述图像中的分布。在这个高斯扩散G中,我们假设中心点有最大的置信度,然后在周围区域逐渐减小,从而尽可能的覆盖整个目标。所以图像的密度是由图像与高斯核的卷积来定义的

Fx=Hx*Gσ

其中F(x)为估计密度,H(x)为由式(1)推导出的N个头的图像。为了简化实现,我们建议使用固定内核Gσ代替几何自适应内核Gσ[49]。

 

  1. Network Framework

在人群计数中,我们的主要目标是准确地估计图像中的人数。给定一幅图像,网络将输出相应的密度图,对密度图进行积分可以得到图像中的人数。然而,一方面,由于透视分布的存在,图像中头部的大小变化非常快。另一方面,出现严重的闭塞使个体难以区分。因此,人群计数是一项非常具有挑战性的任务。目前最先进的方法是采用多列结构来解决[32]、[38]、[49]等多尺度问题;他们倾向于使用不同大小的卷积核来映射多尺度的头部。这种多列框架能够克服不同大小的人的头部造成的影响,从一个角度分布到一定的水平。但是,这种结构需要为不同的列设置一个合理大小的卷积核。卷积核的合理性在很大程度上影响了网络性能,使其过于复杂,因为多列结构需要大量的计算。近年来,将不同语义层的信息结合起来,在显著目标检测方面取得了很大的成功。在[15]中,作者证明了较浅的层可以提供丰富的空间信息,而较深的层编码高级语义知识,可以更好地确定对象的分布。

因此,通过结合浅层和深层的特征可以更好地表示对象。在现有工作的启发下,我们建议:

1)一个好的人群统计网络应该结合来自不同层面的信息;

2)浅层细节特征与深层语义信息相结合能够更好地表示对象的特征信息。因此,我们想要开发一种新的人群计数方法,结合不同层次的特点。

因此,我们提出了一种对称的编码-解码器CNN架构用于人群计数,如图2所示。所提议的体系结构更详细地描述如下:

•编码网络:由五个代表不同尺度信息的编码块组成,每个编码块的详细情况如图3(左)所示。虚线表示以2为步幅的1×1卷积来匹配维度。

•融合网络1:如动机所示,本文工作的目的是结合不同尺度的编码信息(图2),通过卷积运算对特征进行下采样,实现维度匹配。这里,多尺度多语义特征的融合有利于解决人群计数

•解码网络中的干扰问题:它由代表不同特征信息的5个译码块组成,译码块的详细情况如图3(右)所示。虚线表示以2为步幅的1×1卷积来匹配维度。

•融合网络2:对于解码过程中不同的特征信息(图2),它们代表不同尺度的特征信息。因此结合这些特征可以产生更准确的估计。

在编码阶段,在每个下采样步骤中,将输出通道的数量设置为输入通道数量的两倍,以保留更多的信息。经过四次下采样操作后,这些特征图仅代表原始图像的1/16。然而,这些特征图比以前的特征图有更大的接受域。根据[15]中给出的结果,不同编码层的尺度信息不同,因此,需要将不同层次的信息进行组合,得到一个后一层的译码网络。

为了有效地提取特征,我们将不同尺度和不同语义的特征结合在一起。不同尺度的特征融合有利于提取多尺度特征,不同语义的融合有利于网络对图像中不同尺寸和不同拥塞程度的人头信息进行编码。因此,不同尺度、不同语义的特征融合可以提高最终的准确率。本文提出的对称编解码器网络结构具有以下三个优点:

•网络不再需要多栏结构来学习来自不同接受域的信息。只有单列网络才能从不同的接受域获取信息。从而降低了网络的复杂度。

•编码和解码网络结合来自不同层的信息来重用信息,然后预测更准确的估计。

•这样的沙漏结构不仅可以减少内存消耗,还可以减少计算成本。

该体系结构与语义切分的体系结构相似。在这里,我们想说的是,所提出的工作是由人群计数的独特挑战所驱动的:对于语义分割,作者通常认为来自较浅层次的输出可以捕获丰富的空间信息。这些低级的特性有利于描述对象的细节。然后将深层的高层特征转化为较浅的层,以获得较高的区域定位精度。通过将不同层次的特征结合在一起,该框架可以从各个层次提供更丰富的多尺度特征,并生成满意的分割图。因此,像素级语义分割任务的特征聚合的目的是描述更精确的空间位置和局部细节[2]、[26]、[31]、[34]。然而,在我们提出的人群计数任务中,我们使用不同大小的接受域过滤器来提取不同尺度的特征。这是因为由于透视效果或图像分辨率的原因,监视图像中目标(如头部)的大小和形状不一致。因此,我们需要将不同尺度的特征结合在一起来生成一个密度图。另一方面,U-Net[36]只使用了来自最后一层的特性,并且使用了快捷方式来提供更多的细节。但是在我们的人群计数任务中,框架应该结合来自不同规模的特性,以适应不同规模的目标。因此我们结合了所有编码和解码层的特性。此外,在解码层中,每一层输出都会在特定的尺度上产生目标头的特征表示,将它们结合起来会产生更好的密度图。

  1. Loss Function

现有的方法[3]、[8]、[32]、[38]、[49]一般采用欧氏距离来测量生成的密度图与对应地面真值之间的误差。这里,我们按照以下研究思路来定义损失函数:

 

III. EXPERIMENTS AND EV ALUA TION

在本节中,我们将对我们的网络性能在几个公共人群计数数据集上进行评估:ShanghaiTech[49]、WorldExpo' 10[46]、Mall[8]、UCF_CC_50[16]、SmartCity [48]和Beijing BRT[10]。这些数据集的详细信息如表一所示。首先,为了证明不同层次连接的有效性,我们使用ShanghaiTech数据集的Part_A进行消融研究。通过实验验证了用固定核生成密度图的合理性。然后,将所提出的方法与现有的基于上述数据集的方法进行了比较(不同的数据集有不同的特征,因此我们选择这些数据集来评价我们的方法。我们应该知道,因为大多数上述方法没有公共代码,所以我们使用的结果有显示在纸上)。最后,通过实验验证了该方法的有效性。在比较中,我们使用了Mean Absolute Error (MAE)和Mean Squared Error (MSE)来测量计数误差,其定义如下:

 

在训练中,我们的网络进行了四次下采样和上采样操作。为方便起见,输入图像补丁的大小是16的倍数。在实验中,从原始图像中随机裁剪出大小为160×160的训练patch。使用概率为0.5的水平翻转来增加数据。网络性能测试时,原始图像被直接发送到模型(当图像的长度或宽度是不合适的,补0使图像的长度和宽度的倍数16)。选择随机梯度下降(SGD)来最小化L(Θ),动量设置为0.9,权值衰减设置为10−5。网络是基于Caffe框架在[18]中提出的。服务器参数如下:Intel(R) Xeon(R) CPU E5-2683 v3 @2.00GHz, 128G RAM, NVIDIA GeForce GTX1080 Ti。

 

A. Ablation Study

在本节中,一个消融研究被提出来验证合并来自不同层的信息的有效性。我们的网络性能验证使用四组实验设置:

(1)实验没有连接:没有连接不同层之间的信息编码和解码阶段,我们把它作为我们的基础网络。

(2)实验编码连接:连接只有来自不同层次的信息在编码阶段。

(3)解码连接:仅在解码阶段对来自不同层次的信息进行拼接。

(4)编码阶段和解码阶段同时连接的实验(所提出的网络):来自不同层的信息分别在编码和解码阶段连接。

我们所有的对比实验都是使用ShanghaiTech数据集[49]的Part_A进行的。由于这个数据集包含了很多场景,所以图像中人物的头部尺寸发生了很大的变化,这个数据集中的图像既包含了相对稀疏的人群,也包含了非常密集的人群。Part_A最初是在[49]中引入的,由482张从互联网上收集的图片组成。

 

实验结果的详细比较如表二所示。其中可以看出,在编码阶段或解码阶段有连接的实验结果比没有连接的实验结果有了轻微的改善。最好的结果来自于两个阶段都使用连接。

这样的结果的主要原因可能是融合多层功能的编码和解码阶段可以更好地代表人们的头,由于信息编码和解码阶段之间是互补,融合多层功能仅在编码或解码阶段不够好来表示。因此,在编码或解码阶段的连接有了微小的改进。在编码和解码阶段,将来自不同层次的信息串联起来,实现了进一步的改进。这些结果证明了不同层次信息组合的有效性。

B. Rationality of Fixed Kernel

在[21]中,首次将密度图用于人群计数。在此之后,在人群计数中使用密度图的好处得到了认可。即密度图可以保留更多的空间分布信息,有利于人群行为分析。在一个MCNN[49]中,作者证明了在拥挤计数中,头的大小与k个相邻的人的中心之间的距离有关。因此,最近k个邻居之间的平均距离可以合理地估计当前头的大小(他们称这种方法为几何自适应核)。这样就解决了对透视图的依赖,但是这种方法只适用于头部较大的密集场景。对于稀疏场景或图像中较小的头部尺寸,内核大小将变得太大或太小。

 

固定核的合理性如图4所示。从图4 (b)中可以看出,几何自适应核使用较大的区域来表示远处的一个小的人,而在图4 (d)中,几何自适应核只使用了几个像素来表示远处的一个小的人。具体来说,当池化操作在网络中重复使用时(如MCNN、CrowdNet、DR-ResNet、SwitchCNN),输出密度图较小。为了使生成的密度图与输出的密度图相对应,我们只用一个像素来表示一个人头。因此,回归到密度图被降级为回归到计数,这对我们的网络是困难的。与图4(b)和(d)相比,图4(c)和(f)中的密度图似乎更合理,其中头的大小由固定的大小表示。

同时,由于透视贴图的限制,我们无法准确的估计出图像的透视分布。具体来说,在实践中,透视图的分布取决于相机的安装高度、角度、位置、焦距等。确定每个相机的透视分布是一项艰巨的任务。

 

考虑到上述问题,作为折衷,我们建议使用固定核而不是几何自适应核。图4 (c)和图4 (f)的密度图比图4 (b)和图4 (d)的密度图更合理。几何自适应核与固定核的实验结果如表3所示,可以看出,两种核的实现性能是比较接近的,但对于固定核,密度图很容易生成,并且k和感知图是缩进的。主要原因是密度图是头部的模糊表示,所以简单的固定内核就足够了。

C. Evaluation and Comparison

 

 

 

IV . CONCLUSION

       我们提出了一种新的对称CNN来融合多层特征进行人群计数。该网络在编码和解码阶段自动结合不同层次的特征,生成更合理的密度图,实现更精确的计数。我们使用了一些主要的人群计数数据集来评估我们的网络在单场景、复杂场景、交叉场景下的性能,并验证其转移学习的能力。在上述数据集上的大量实验结果表明,我们的网络可以用一个相对简单的网络实现最先进的性能。此外,还首次引入了P AE,它可以帮助MAE对密度图的质量进行更合理的评估。实验结果表明,PAE与MAE的结合为评价密度图的合理性提供了一种更为精确的方法。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
boosting-crowd-counting-via-multifaceted-attention是一种通过多方面注意力提升人群计数的方法。该方法利用了多个方面的特征来准确估计人群数量。 在传统的人群计数方法中,往往只关注人群的整体特征,而忽略了不同区域的细节。然而,不同区域之间的人群密度可能存在差异,因此细致地分析这些区域是非常重要的。 该方法首先利用卷积神经网络(CNN)提取图像的特征。然后,通过引入多个注意力机制,分别关注图像的局部细节、稀疏区域和密集区域。 首先,该方法引入了局部注意力机制,通过对图像的局部区域进行加权来捕捉人群的局部特征。这使得网络能够更好地适应不同区域的密度变化。 其次,该方法采用了稀疏区域注意力机制,它能够识别图像中的稀疏区域并将更多的注意力放在这些区域上。这是因为稀疏区域往往是需要重点关注的区域,因为它们可能包含有人群密度的极端变化。 最后,该方法还引入了密集区域注意力机制,通过提取图像中人群密集的区域,并将更多的注意力放在这些区域上来准确估计人群数量。 综上所述,boosting-crowd-counting-via-multifaceted-attention是一种通过引入多个注意力机制来提高人群计数的方法。它能够从不同方面细致地分析图像,并利用局部、稀疏和密集区域的特征来准确估计人群数量。这个方法通过考虑人群分布的细节,提供了更精确的人群计数结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值