《LOCALITY-CONSTRAINED SPATIAL TRANSFORMER NETWORKFOR VIDEO CROWD COUNTING》论文笔记

论文地址

论文翻译

ABSTRACT

与基于单个图像的人群计数相比,视频提供了人群的时空信息,这将有助于提高人群计数的鲁棒性。但是人的平移,旋转和缩放会导致相邻帧之间的头部密度图发生变化。同时,步入/驶出或被动态场景遮挡的人会导致人数的变化。为了减轻视频人群计数中的这些问题,提出了局域性空间变压器网络(LSTN)。具体来说,我们首先利用卷积神经网络来估计每个帧的密度图,然后,为了将相邻帧之间的密度图关联起来,引入了局部性受限空间变换器(LST)模块,以估计下一帧与当前帧的密度图。为了促进性能评估,收集了一个大规模的视频人群计数数据集,其中包含15K帧以及从13个不同场景捕获的约394K带注释的头部。 据我们所知,它是最大的视频人群计数数据集。在我们的数据集和其他人群计数数据集上进行的大量实验验证了我们的LSTN在人群计数方面的有效性。我们所有的数据集都在https://github.com/sweetyy83/Lstn_fdst_dataset中发布。

1. INTRODUCTION

人群计数由于其在视频监视,交通控制和紧急情况管理中的潜在应用而已广泛用于计算机视觉。但是,大多数以前的著作1 ,2, 3都集中在基于单个图像的人群计数上。在实际应用中,我们手头有视频,通常人群的移动是可预测的且一致的4。在本文中,我们的目标是利用相邻帧之间的时空一致性来获得更可靠的视频人群计数。
       ~~~~~~       以前的人群计数方法可以大致分为基于检测的方法和基于回归的方法。基于检测的方法通过检测头部或行人来计数人群,但是这些方法通常无法检测到微小的5或闭塞的6头部/身体,这在实际场景中非常常见。因此,基于回归的方法更为常用。最近,鉴于卷积神经网络(CNN)在图像分类方面的成功,它也已被引入人群计数,其中CNN用于学习从输入图像到其对应密度图的映射。为了利用相邻帧之间的时空一致性来获得视频中更准确的密度图,已经提出了基于LSTM 7或ConvLSTM 8的方法,该方法可以将LSTM或ConvLSTM的所有历史帧的特征累加起来,以进行密度图估计。这些方法已经证明了其对视频人群计数的有效性,但是它们以隐式方式利用了历史信息,并且当人们走进/出入或被遮挡时,历史帧中人群的身份可能与当前帧中的人群完全不同。因此,这些历史记录中的特征甚至可能会损害当前帧的密度图估计。
       ~~~~~~       在本文中,我们不是使用LSTM或ConvLSTM隐式地对视频中的时空相关性进行建模,而是建议利用局域性空间转换器(LST)模块来显式地对相邻帧之间的时空相关性进行建模。
       ~~~~~~       具体地说,一方面,在人群相同的情况下,先前的工作4表明可以很好地预测人群的轨迹。 但是由于视角,距离,旋转和照明的变化,同一个人的外观可能在视觉上发生很大变化,因此有时可能不容易在两个相邻的框架中直接重新识别该人。但是密度图忽略了人们的外表,仅与头部的位置有关。由于人们的轨迹是可预测的,因此一帧的密度图可能会通过一些转换而偏离其前一帧的密度图,其中包括人们远离或朝着相机走来引起的缩放和平移,相机运动引起的旋转等。另一方面,对于视频,某些人走进/走出摄像机的成像范围或被遮挡。在这些情况下,从先前的帧中估计这些人的密度图是不可行的。通过在LST中综合考虑所有这些因素,我们建议不要将整个帧的密度图翘曲,而是将每个帧分成多个块。如果这两个块相似,则它们可能对应于相同的总体,则地面真实密度图和扭曲密度图之间的差异应较小。如果有人进/出或被遮挡,则我们允许前一帧的扭曲密度图与地面真实情况略有不同。此外,由于仅使用相邻帧之间的时空依赖性,因此我们的模型可以摆脱不相关历史帧在密度图估计中的影响。实验验证了我们的视频人群计数模型的有效性。
       ~~~~~~       对于视频人群计数,需要具有多个场景的大规模数据集。但是大多数现有的数据集都太小,只有几个场景。 例如,WorldExpo’10 个数据集是上一幅作品中最大的一个,仅包含5个场景。因此,我们建议构建一个具有更多场景的名为"Fudan-ShanghaiTech (FDST)"的新的大规模视频人群计数数据集。具体来说,FDST数据集包含15,000个帧,从13个不同的场景(包括购物广场,广场,医院等)捕获了394,081个带注释头。该数据集比WorldExpo’10数据集要大得多,后者仅包含3980个带199,923个带注释头的帧。此外,我们提供逐帧注释,而WordExPo’10仅每30秒提供一次注释。因此,FDST数据集更适合视频人群计数评估。
       ~~~~~~       我们的工作的主要贡献可以概括如下:i)我们提出了一个局域性空间变压器网络(LSTN),该网络显式地对相邻帧之间的时空相关性进行建模,以方便视频人群计数。ii)我们收集了具有逐帧地面真实注释的大规模视频人群计数数据集,这将有助于评估视频人群计数中的性能。iii)大量实验验证了我们的视频人群计数模型的有效性。

2. RELATED WORK

       ~~~~~~       由于我们的工作与基于深度学习的人群计数有关,因此在这里我们仅简要讨论基于深度学习的人群计数的最新工作。
       ~~~~~~       人群计数为单个图像。 最近的工作3 9 10已经证明了CNN在单图像人群计数中对密度图估计的有效性。为了提高不同规模和密度地区人群计数的鲁棒性,提出了不同的网络架构,包括MCNN3、Hydra CNN11、Switch-CNN9、CSRNet10,基本上利用了具有不同局部接受域的网络进行密度地图估计。此外,最近人们还提出利用检测12或定位13任务来辅助人群计数任务。但在视频人群计数中,这些单图像人群计数方法可能导致相邻帧的人头计数不一致。
       ~~~~~~       视频的人群计数。 以前的大多数作品都集中在单个图像人群计数上,而只有少数几本关于视频人群计数的作品。最近,Xiong等人8建议利用ConvLSTM集成历史特征和当前帧的特征以进行视频人群计数,这已经证明了其对视频人群计数的有效性。此外,Zhanget等人7还建议将LSTM用于视频中的车辆计数。但是,所有这些基于LSTM的方法都可能受到那些​​不相关的历史的影响,并且没有明确考虑视频中的时空依赖性,而在我们的解决方案中,使用LST明确地在相邻帧中对此类依赖性进行建模。因此,我们的解决方案更为直接。
       ~~~~~~       空间变压器网络(STN)。 最近,Jader-berget等人提出了一种可微空间变压器(ST)模块,该模块能够对输入和输出之间的空间转换进行建模。该ST模块可以方便地接入现有的多种网络并进行端到端训练,在人脸比对1415和人脸识别16方面显示出了良好的效果。此外,该算法还被应用于基于由粗到精的单图像人群计数框架17中的密度地图估计。但与17不同的是,我们建议利用ST来关联相邻帧之间的图像进行视频众包。
在这里插入图片描述

3. OUR APPROACH

我们的网络架构如图1所示。它包括两个模块:密度图回归模块和局部约束空间变压器(LST)模块。密度图回归模块以每一帧为输入,估计其对应的密度图,LST模块以估计的密度图为输入,预测下一帧的密度图。

3.1. Density map regression module

密度图的生成对于基于密度图的人群计数性能非常重要。 给定一帧具有 N N N 个头,如果第 i i i 个磁头以 p i p_i pi 为中心,我们将其表示为增量函数 δ ( p − p i ) δ(p-p_i) δ(ppi)。因此,可以如下计算该帧的地面密度图:
在这里插入图片描述
G σ ( p ) Gσ(p) Gσ(p) 是具有方差 σ σ σ 的二维高斯核:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值