Multi-level feature fusion based LSTN for video crowd counting论文解读
论文地址
Multi-level feature fusion based Locality-Constrained Spatial Transformer network for video crowd counting
https://www.sciencedirect.com/science/article/pii/S0925231220301454?casa_token=3FEhnV5V9wsAAAAA:bZL5_az4YVHatQcw7WDNrbUgWfjtsj4wDMPoo3-H8bzFZ0N-xjbNu2807MEvlXb6CZnyF3VGaFM
论文翻译
Abstract
基于视频的人群计数可以利用相邻帧之间的时空信息,从而提高人群计数的鲁棒性。因此,在实际应用中,该方法比基于单一图像的人群计数更具有实用性。由于人的严重遮挡、平移、旋转和缩放会导致相邻帧之间头部密度图的变化,基于视频的人群计数是一项非常具有挑战性的任务。针对视频人群统计中存在的这些问题,提出了一种基于多层特征融合的位置约束空间互感器网络(MLSTN),该网络由密度图回归模块和位置约束空间转换器模块组成。具体来说,我们首先利用卷积神经网络的低层、中层和高层特征来估计每一帧的密度图。这是因为低级特征在提取小的头部信息时可能更有效,而中、高级特征在提取中、大的头部信息时可能更有效。然后,为了度量相邻帧之间的密度映射关系,提出了LST模块,该模块通过串联多个回归密度映射估计下一帧的密度映射;为了便于视频人群计数的性能评估,我们收集并标记了一个大规模的视频人群计数数据集,该数据集包含了来自13个不同场景的1005秒长的序列和394,081个标注头。据我们所知,它是目前最大的视频人群统计数据集。在我们的数据集和其他基于视频的人群统计数据集上,大量的实验表明了我们提出的方法对人群统计的有效性。我们所有的数据集都在线发布1 。
1 Introduction
人群计数的目的是估计在静止的图像或监控视频中的人数。由于其在许多安全相关场景中的潜在应用[1,2],如视频监控、交通监控和应急管理,在计算机视觉领域引起了广泛的关注。以往的人群计数工作,如[3-5],大多是基于单图像的。目前,由于在每个街角都安装了摄像头,基于视频的人群计数更适合实际需要,因为人群的运动是可预测的,且一致的[6]。因此,本文主要研究基于视频的人群计数。
人们提出了各种各样的方法来解决人群计数的问题。传统的方法一般可以分为基于检测的方法和基于回归的方法。基于检测的方法[7-9]是基于检测式框架,采用滑动窗口检测器对场景中人员的头部或全身进行检测。但这些方法通常无法检测到在真实场景中非常常见的小[7]或闭塞的[10]头/体。因此,研究人员试图通过回归来克服上述问题,将从拥挤场景或斑块中提取的特征映射为人群计数数。
近年来,基于cnn的方法在图像分类[11]、姿态估计[12]和语义分割[13]方面取得了显著的成功。它们也被用于解决人群计数问题,CNN被用来学习从输入图像到相应密度图的映射。对于视频人群计数,有两个重要问题。(1)如何利用相邻帧之间的一致性。(2)人群计数的鲁棒特征提取。对于第一个问题,为了利用相邻帧之间的时空一致性来更准确地预测视频中的密度图,基于LSTM[14]或ConvLSTM[15]的方法被提出,利用LSTM或ConvLSTM累积所有历史帧的特征来估计密度图。这些方法在视频人群统计中已经证明了其有效性。然而,他们暗中依赖于先前的隐性的相邻区域,而忽略了相邻人群当前的重要意图。当人们走进/走出或被遮挡时,历史框架中人群的身份可能与当前框架中的身份完全不同。因此,如果不仔细处理,这些历史特征甚至会损害当前帧的密度图估计。对于第二个问题,由于多列网络可以集成不同分辨率的特征,现有文献[5,16]利用不同接受域的多列卷积神经网络研究尺度鲁棒特征。然而,多列网络仍然受到训练数据中的离群值的影响,因为多列网络实际上是全局模型[17]。
与已有的研究成果不同,本文提出了一种新的基于视频的人群计数框架,该框架由CNN和空间变压器网络(STN)组成。在这个框架中,我们设计利用位置约束空间转换器(location - constrained Spatial Transformer, LST)模块来显式建模相邻帧之间的时空相关性,而不是使用LSTM或ConvLSTM来隐式建模视频中的时空关系。在此基础上,我们提出了一种基于多层次特征融合的更健壮的人头群体计数方法。这一制度背后的合理性主要基于以下两点观察。首先,当我们考虑相同的人群数量时,之前的工作[6]已经表明人群的轨迹可以很好地预测。但是,由于距离、旋转、光照和透视的变化等因素,即使是同一个人的外表也可能会有明显的视觉变化。因此,有时很难在两个相邻的框架中直接重新识别人。因为密度图忽略了人的外貌,只与头部的位置有关,所以在文献中被广泛使用。虽然一帧的密度图与前一帧[15]的密度图相比可能会发生扭曲,但不可能直接从前一帧中估算出这些人的密度图。考虑到人的轨迹是可预测的,可以通过一些变换来缓解这种扭曲。其次,对于视频,有些人离摄像机很近,有些人离摄像机很远。因此,视频中人头的大小在一帧内发生变化。利用单尺度特征提取来估计这些人群的密度图显然是不可行的。
考虑到所有这些因素,我们采取了扭曲LST中整个框架的密度图的形式。具体来说,给定来自相邻帧的两幅图像,我们使用它们的相似性来加权ground-truth密度图和扭曲密度图之间的差值。如果两幅图像相似且包含人数相近,ground-truth密度图与扭曲密度图的差异应该较小。但如果有人走进/走出或被遮挡,我们允许前一帧的扭曲密度图与地面真相略有不同。此外,由于我们的模型只使用了相邻帧之间的时空相关性,因此可以消除不相关的历史帧对密度图估计的影响。最近,残差网络(ResNets)[18]和Densenet[19]被提出用于特征提取。在人群计数方面,浅层特征比小人头更有效,中间特征比中等人头更有效,高级特征比大人头更有效,因此我们提出融合低、中、高级特征的方法来实现更健壮的人群计数。实验验证了该模型在视频人群统计中的有效性。
为了进行视频人群计数,需要收集具有多个场景的大规模数据集。但现有的人群计数数据集大多基于单个图像。虽然有一些基于视频的数据集用于人群计数,比如UCSD数据集和Mall数据集,但它们的帧分辨率相对较低,通常只关注一两个场景。同样,WorldExpo ’ 10数据集只包含5个场景,两个标记帧之间的时间间隔大于10s,因此相邻标记帧之间的时间相关性和一致性可能较弱。因此,我们建议构建一个具有更多场景的新型大规模视频人群统计数据集“复旦-上海科技”(FDST)(典型示例见图1)。其中,FDST数据集包含15000帧,包含从商场、广场、医院等13个不同场景中捕获的394,081个标注头。该数据集比WorldExpo ’ 10数据集大得多,后者只包含3980帧和199,923个注释头。此外,我们提供了基于框架的注释,而WordExPo ’ 10只提供超过10秒的注释。因此,FDST数据集更适合于视频人群计数评估。
总之,我们的主要工作可以概括为:
- 我们设计了一种基于多层次特征融合的局部约束空间变换网络(MLSTN),该网络明确地编码了相邻帧之间的时空依赖关系,以实现更鲁棒的人群计数。
- 我们提出融合多级特征,以提高不同尺寸头部的鲁棒性.
- 我们收集了大规模、多样化的视频人群计数数据集,并采用帧级ground-truth注释,提高了视频人群计数的性能。
这项工作是我们之前在ICME 2019(口头)上发表的工作[20]的延伸。与我们的会议版本相比,我们改进了以下工作:(1)我们提出了融合多尺度特征的方法,该方法适用于不同尺寸头部密度图的回归;(2)利用多帧预测下一帧,提高了预测精度;(3)我们进行了更多的实验来验证不同成分的重要性.
本文的其余部分组织如下。首先简要回顾第二节的相关工作。然后,在第三节中,我们介绍了基于多级特征融合的LSTN (MLSTN)的体系结构。我们将在第4节介绍FDST数据集。我们的方法和最新技术之间的性能比较将在第5节中介绍。最后,我们在第6节总结了本文。
2 Related Work
人群计数和密度地图估计问题面临着密度不均匀、遮挡、场景内和场景间的尺度和视角[1]变化等诸多挑战。文献中提出了多种方法来处理图像[3-5,16,21,22]和视频[14,15,23-27]中的人群计数问题。在本节中,我们回顾了基于深度学习的人群计数和空间变压器网络(STN),并对相关工作进行了概述。
2.1Deep learning methods for crowd counting
2.1.1 Image-based crowd counting
最近的研究[5,22,28 - 33]证明了CNN在单图像人群计数中密度图估计的有效性。Wang et al.[21]和Fu et al.[3]是最早将基于CNN的方法用于人群密度估计的研究人员。[4]提出了跨场景人群计数的想法。他们的基本想法是将图像映射到人群数量中,并将这种映射应用到跨场景计数的新目标场景中。但该方法的缺点是训练场景和测试场景都需要使用透视图。因此,Zhang et al.[5]提出了一种多列CNN架构,允许输入图像具有任意大小或分辨率。类似的,Onoro和sastreet al.[16]提出了一个感知尺度的计数模型,称为Hydra CNN,该模型使用在多个尺度上提取的图像块的金字塔来进行最终的密度预测。然而,上述方法侧重于在其网络中整合规模信息。Sheng等人提出了一种新的图像表示方法,将语义属性和空间线索相结合,提高了特征表示的判别能力。Shang等人提出了一种由CNN模型和LSTM解码器组成的端到端网络来预测人数。Yao et al.[36]提出了一种基于CNN和LSTM的深度空间回归模型,用于计算任意视角和任意分辨率的静止图像中个体的数量。最近,一些方法专注于结合其他线索来辅助人群计数,如检测[37],注意[38],定位[22,32,33]和合成数据[31],特别是,Wang等人的[31]介绍了一个非常大的合成人群计数数据集,以及他们提出的空间全卷积网络,利用合成数据提高现实世界的性能。这些方法在人群计数方面取得了很大的成功。但这些单一图像的人群计数方法可能会导致视频人群计数中相邻帧的人头计数不一致。
2.1.2 Video-based crowd counting
尽管以往的单图像人群计数工作取得了良好的结果,但他们总是将所有的数据集视为一组静态图像,甚至在视频序列中也没有考虑它们的时空相关性。最近,一些著作[14,15,26,39,40]试图挖掘时空相关性。具体来说,Xiong等[15]提出利用ConvLSTM结合历史特征和当前帧特征进行视频人群计数,并显示了其对视频人群计数的有效性。Li et al.[40]提出了一种基于多视角的无参数方法来检测人群场景中的群体。Ding等人提出了一种基于ResNet块的深度递归网络用于人群计数。Zou等人提出了一种自适应多尺度卷积网络,该网络将不同的能力分配给输入的不同部分。此外,Zhang et al.[14]也提出了在视频中使用LSTM进行车辆计数。然而,所有这些基于LSTM的方法都可能受到这些无关历史的影响,并没有明确地考虑视频中的时空依赖性,而我们的解决方案使用LST在相邻帧中明确地模拟了这种依赖性。
2.2 Spatial transformer network
尽管cnn在各种计算机视觉问题上取得了巨大的成功,但还没有一种原则上的方法能够对输入数据在空间上保持不变。最近,Jaderberg et al.[41]引入了可微空间转换器(ST)模块,该模块能够对输入和输出之间的空间转换进行建模。这种ST模块提供了一种端到端学习机制,可以很容易地插入到许多现有的网络中,明确地学习如何转换输入数据以实现空间不变性。自STN引入以来,它已被证明是解决几何变化的有效方法。例如,在[42]和[43]中,使用stn来提高人脸对齐和检测的性能。虽然STN模型在许多情况下非常有效,但在严重畸形的情况下并不适用。为了解决这个问题,Wu et al.[44]提出了一个名为递归空间变压器(Recursive Spatial Transformer, ReST)的多stns模型,并将其用于无对齐人脸识别。然而,随着几何预测层数量的增加,出现了诸如不必要的边界效应等问题。因此Lin和Lucey[45]提倡逆组合空间变压器网络(IC-STNs),它将传统的STNs与IC-LK算法结合起来。此外,该算法还被用于基于粗细化的单图像人群计数框架[46]的密度图估计。与[46]不同,我们提出利用ST来评估视频人群计数中相邻帧之间的密度图关系。
3 The proposed method
3.1. Overview
在本研究中,我们提出了一种基于多层次特征融合的位置约束空间变压器网络(MLSTN)。该网络的体系结构如图2所示,它由两个基本模块组成:密度图回归模块和LocalityConstrained Spatial Transformer (LST)模块。在前面的工作[47]之后,我们仍然将人群计数任务表述为密度图估计问题。
为了获得更鲁棒的人群计数,我们首先利用特征提取器对每个输入帧提取多级特征,然后将它们串联后发送到LST中。具体而言,在密度映射回归模块中,我们首先将三幅连续图像
X
t
X_t
Xt、
X
t
+
1
X_{t+1}
Xt+1、
X
t
+
2
X_{t+2}
Xt+2作为一组输入,估计其对应的密度映射
M
t
r
e
g
,
M
t
+
1
r
e
g
,
M
t
+
2
r
e
g
M_{t}^{reg}, M_{t+1}^{reg} ,M_{t+2}^{reg}
Mtreg,Mt+1reg,Mt+2reg,然后将它们串联聚合得到一个新的估计密度映射
M
⋅
t
+
2
r
e
g
\overset{·}M_{t+2}^{reg}
M⋅t+2reg。最后,我们在LST模块中以
M
⋅
t
+
2
r
e
g
\overset{·}M_{t+2}^{reg}
M⋅t+2reg为输入预测下一帧的密度图
M
t
+
3
L
S
T
M_{t+3}^{LST}
Mt+3LST
在本节的其余部分中,我们将详细介绍上述模块。为了便于阅读,我们总结了本文中使用的一系列重要符号,如表1所示。
3.2. Density map regression based crowd counting
密度图的生成对于基于密度图的人群统计的性能至关重要。与[47]类似,我们也将人群计数表示为密度图估计问题。也就是说,给定一个有N个头的坐标系,如果第i个头以pi为中心,我们将其表示为
δ
(
p
−
p
i
)
\delta \left( p-p_i \right)
δ(p−pi),则该坐标系的groundtruth密度图可计算如下:
其中
G
(
σ
)
(
P
)
_{G_{\left( \sigma \right)}\left( P \right)}
G(σ)(P)为一个带有变量
σ
\sigma
σ的2D高斯核:
也就是说,如果一个像素在被注释点附近,那么它就有更高的概率属于一个头部。一旦密度图生成,密度图回归模块将每一帧映射到相应的密度图。如上所述,我们表示t (t = 1,…)的地面真密度图。表示密度图回归模块估计的密度图为 M t r e g M_{t}^{reg} Mtreg。那么密度图回归模块的目标可以写为:
3.3. Multi-level feature fusion for robust crowd counting
正如我们所知,特征在人群计数中非常重要。因此,在密度图回归模块中,我们使用了一个多级特征融合特征提取器来提取特征。如图3所示,它由低级特征、中级特征和高级特征组成。
图3:
在真实场景中,视频图像中头部的大小各不相同。靠近相机的头部通常较大,而远离相机的头部则较小。因此,我们需要从不同大小的人头中提取健壮的特征。为此,我们建议采用多级特征融合结构。在这个结构中,我们对小的头部使用低级特征,对中等头部使用中级特征,对大的头部使用高级特征。通过连接低级、中级和高级特征,我们能够为不同大小的人头实现更健壮的人群计数。此外,显然不可能根据计算复杂度将所有特征串联起来。因此,我们只提取三个不同的特征层,将它们连接在一起。实验证明了设计的有效性。
3.4 LST module
之前的许多研究[6,48,49]已经证明对于视频中相同的人群,他们的轨迹可以很好地预测。很容易认为前一帧的密度图可能有助于预测当前帧的密度图。然而,在现有的视频人群计数数据集,它们大多数都没有提供相邻帧中人之间的对应关系。因此,这使得不可能直接学习从前一帧的头部坐标到当前帧的头部坐标的映射。此外,由于相邻帧的透视、距离、旋转、光照条件和遮挡的变化,同一个人的外观在视觉上可能会发生很大的变化,这使得在相邻的两帧中直接重新识别该人变得困难。但是对于忽略人的外表的密度图,它只取决于头的位置。此外,之前的工作已经表明,人的轨迹是可以预测的。因此,在估计同一人群时,我们可以利用前一帧的密度图来估计当前帧的密度图。具体来说,同一组人的密度图在相邻帧中的变形包括:当人们远离或朝向摄像机时的平移和缩放,或者当摄像机有一些移动时的平移和缩放,或者由于风或地面振动引起的旋转等。
cnn已经定义了一个非常强大的模型类。然而,由于缺乏以一种高效的计算和参数方式[41]对输入数据保持空间不变的能力,它仍然是有限的。为了利用视频人群计数的时空相关性,我们提出了一种基于STN的新方法。从最近的工作[46]中可以看出,空间变压器(ST)模块对于学习输入输出之间的转换有明显的作用。因此,对于同一组人,ST可以用来学习两个相邻帧之间的映射。但是在实际应用中,当人们进入/走出相机的范围,或者一些人可能被遮挡时,ST的应用会受到限制。因此,本文提出了一种LST,其基本原理是利用相邻两幅图像的相似度对ground-truth与变换后的密度图的差值进行加权。另外,如果两个输入图像相似,可能对应的是相同的种群,那么ground-truth密度图与变换后的密度图的差异应该较小。此外,如果有人走进/走出或被遮挡,那么我们允许估计的密度图与地面真相略有不同。通过上述操作,将所有帧的这种差异最小化,从而利用相邻帧之间的依赖关系进行基于视频的人群计数。
在本文中,我们将LST模块的映射函数定义为fLST。它使用(t +2)th帧的估计密度图(density map)
M
⋅
t
+
2
r
e
g
\overset{·}{M}_{t+2}^{reg}
M⋅t+2reg的级联作为输入来估计(t + 3)th帧的密度图。我们将
M
t
+
3
L
S
T
M_{t+3}^{LST}
Mt+3LST表示为第(t + 2)帧用LST估计的密度图。
受[41]启发,我们的LST模块主要包括三个部分,如图4所示。它们是:(1) The Localisation Network(2) Grid Generator(3)The Sampler。he Localisation Network以密度映射(density map)
M
t
+
2
r
e
g
\overset{~}{M}_{t+2}^{reg}
M t+2reg为输入,使用若干隐藏过滤器产生参数θ。然后空间变换将会通过预测的参数
Θ
{\varTheta}
Θ 产生一个采样格
Γ
Θ
\varGamma _{\varTheta}
ΓΘ。密度图可以映射到采样网格中。该操作可以生成转换后的密度图
M
t
+
3
L
S
T
M_{t+3}^{LST}
Mt+3LST。在[41]之后,LST函数的形式如下:
其中
(
x
i
t
,
y
i
t
)
\left( x_{i}^{t},y_{i}^{t} \right)
(xit,yit)是采样网格
Γ
Θ
\varGamma _{\varTheta}
ΓΘ在输出密度图中的目标坐标,
(
x
s
t
,
y
s
t
)
\left( x_{s}^{t},y_{s}^{t} \right)
(xst,yst)是定义采样点的输入密度图中的源坐标,
A
Θ
A_{\varTheta}
AΘ 表示变换矩阵.
我们用
χ
t
+
2
{\chi}_{t+2}
χt+2,
M
t
+
3
G
T
M_{t+3}^{GT}
Mt+3GT和
M
t
+
3
L
S
T
M_{t+3}^{LST}
Mt+3LST代表
(
t
+
2
)
t
h
{(t+2)}^{th}
(t+2)th帧的图像,它的ground-truth密度图和LST估计的密度图。那么LST的目标可以写为:
S
(
χ
t
+
2
,
χ
t
+
3
)
S{({\chi}_{t+2},{\chi}_{t+3})}
S(χt+2,χt+3)表示对应的时间相邻帧之间的相似度,可度量为:
3.5 Loss function and implementation details
目标函数由密度图回归模块的损耗和LST模块的损耗两部分组成,如下所示。
其中
λ
\lambda
λ是用来平衡
ℓ
r
e
g
\ell _{reg}
ℓreg和
ℓ
L
S
T
\ell _{LST}
ℓLST的权重。
在训练过程中,我们使用了一个Adam优化器,在我们的数据集上学习速率为1e-6。为了减少过拟合,我们采用了批归一化[50],批大小为7。一旦我们的网络被训练,在测试阶段,我们可以直接估计密度图
M
t
+
2
r
e
g
M_{t+2}^{reg}
Mt+2reg (t = 1,…, T),并对其进行积分,得到估计的人头数。
FDST数据集上,基于高斯分布的密度图生成的方差γ = 3,相似度度量的β值为20。我们将所有帧的大小调整为640 × 360像素。首先对密度图回归模块进行预训练,然后通过固定密度图回归模块中的各层特征对整个网络进行微调。我们在FDST数据集2中设置λ = 0.01。
为了评估所提出方法的训练时间,我们在NVidia Titan X GPU平台上实现了我们的模型,并在FDST数据集上测试了我们的模型在训练阶段的运行时间。我们用60个9000帧的视频作为训练集,剩下的40个6000帧的视频作为测试集。如前所述,我们的培训分为两部分。首先,我们使用CNN网络进行预培训。经过9000帧的训练,第一个测试结果出现大约需要1小时50分钟。然后,我们修正了所有层的特性,并引入LSTN。大约45分钟后,第一个测试结果才会出现。我们还在测试阶段对FDST数据集上的模型运行时间进行了测试。我们将程序重复30次,模型的平均运行时间为1.15ms。
4 The Fudan-Shanghai Tech video crowd counting dataset
在过去的几年中,各种基于视频的人群统计数据集被创建出来,而现有的数据集通常包含从单个场景捕获的低分辨率图像,如Mall数据集和UCSD数据集。虽然WordExpo ’ 10数据集提供了一些不同的场景,但它对视频进行了稀疏的采样,这并不完全适合基于视频的人群计数任务。为此,我们提出了一种新的基于视频的大规模人群统计数据集FDST。具体来说,我们从15个场景中采集了100个5秒长的序列(见图5),FDST数据集包含15万帧,共标注头部394,081个。FDST数据集的标注时间超过400小时。据我们所知,该数据集是目前为止最大的视频人群统计数据集。我们的数据集和其他相关数据集的统计数据如表2所示。
5 Experiments
5.1. Evaluation metric
在现有的人群计数方法[51]的基础上,我们采用平均绝对误差(mean absolute error, MAE)和平均平方误差(mean squared error, MSE)作为度量来评估人群计数。它们的定义如下:
其中T为所有测试视频序列所使用的总帧数,
z
i
{z_i}
zi为第i帧的真实人数,
z
i
⋅
\overset{·}{z_i}
zi⋅为第i帧的估计人数。广义上讲,MAE和MSE分别表明了估计的准确性和稳健性。
5.4 FSDT dataset
FDST数据集包含1005秒的视频,我们使用60个视频9000帧作为训练集,剩下的40个视频6000帧作为测试集。我们将该方法与MCNN[5]和ConvLSTM[15]进行了比较。我们还报告了最近在我们的数据集上运行的会议论文LSTN[20]和方法[60]的性能。结果如表5所示。我们可以看到,我们的方法获得了最佳性能。值得注意的是,由于我们的数据集中场景较多,而且训练ConvLSTM并不容易,所以ConvLSTM的性能甚至比基于单一图像的方法还要糟糕。我们还在图6中显示了由我们的MLSTN估计的密度图。
5.5 Ablation study
为了进一步分析我们模型各部分的相对贡献,不同的特征提取器和不同尺寸的头部对性能的影响,我们对FDST数据集进行消融研究如下:
LST的影响。我们首先分析了LST和非LST在我们的模型中的相对贡献,如表6所示,然后我们分别展示了输入一帧
X
t
X_t
Xt(Ours-one)和连续三帧
X
t
、
X
t
+
1
、
X
x
+
2
X_t、X_{t+1}、X_{x+2}
Xt、Xt+1、Xx+2(Ours - 3)的回归密度映射到LST的性能。我们可以看到,与不使用LST的方法相比,我们的方法的改进表明了LST的有效性。此外,为了更好地预测下一帧,我们增加了每个输入的帧数来生成回归密度图,实验验证了我们设计的合理性。
不同特征提取器的影响。我们使用低级、中级和高级特性进行融合。然而,更直观的想法是结合每一层的特性,如Unet[61]或ResNets[18]。所以在本实验中,我们分别将Unet上采样到原始图像1/2、1/4和1/8作为输出结果。此外,与[62]类似,我们将VGG16改为残差连接。表7显示了上述方法的所有结果。
不同尺寸头的性能比较。在标记数据集的头部时,我们采用矩形框的形式。因此,矩形的大小直接代表了数据集中头部的大小。通过矩形的大小,我们将视频集合中的头分为三大类:小头(W≤35 H≤35),中等头(35 < W < 55和35 < H < 55),大头(W≥55和H≥55)。W和H分别表示被标注的包围框的宽度和高度。图7为FDST数据集中三种不同大小的头像所占的百分比。结果如表8所示。我们可以看到,头越大,计数的准确性越高,这与人们的观察结果是一致的。
5.6. Non-parametric tests
我们在实验中进行了非参数统计检验。具体来说,我们使用基于最近邻的解决方案。我们首先将图像平均分成N个块,用于训练和测试图像。对于每个测试图像的分块,我们根据不同分块的VGG特征找到训练分块的最近邻。然后我们假设相应训练块中的人数是测试块中的人数。通过对每个测试图像中所有块的人头数求和,我们可以得到每个图像中人头数的近似值。我们将这种非参数检验(NPT)基线表示为NPT,并在表9中显示其性能。我们可以看到,更少的块导致更好的性能,而我们的方法优于这样的基线。此外,由于最近邻搜索策略的成本高昂,这样的NPT基线非常耗时。
6 Conlusion
在本文中,我们提出了一种基于多层次特征融合的位置约束空间变换器网络(MLSTN),该网络明确地联系了相邻帧的密度图来完成了一次很健壮的视频人群计数具体来说,我们首先利用卷积神经网络来估计每一帧的密度图,利用低层、中层和高层特征的结合。然后,为了关联相邻帧之间的密度映射,提出了位置约束空间变换(LST)模块。在此基础上,我们进一步构建了基于帧级ground-truth注释的大规模、多样化的视频人群统计数据集。据我们所知,FDST数据集是最大的视频人群计数数据集,无论帧数还是场景数。大量的实验证明了该算法在视频人群统计中的有效性。