《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记

论文翻译

Abstract

       ~~~~~~       最近,统计人群中的人数成为热门话题,因为它具有广泛的用途(例如,视频监视,公共安全)。在户外,这是一项艰巨的任务:多变的环境,大量重叠的人导致当前的方法无法正常工作。此外,由于缺乏数据,许多方法在不同程度上都存在过度拟合的问题。为了解决上述两个问题,首先,我们开发了一种数据收集器和标签器,可以生成人工场景并同时对它们进行批注,而无需任何人工操作。在此基础上,我们构建了一个大规模,多样化的综合数据集。其次,我们提出了两种利用合成数据来提高野外人群计数性能的方案:1)在合成数据上预训练人群计数器,然后使用真实数据对其进行微调,这极大地促进了模型在真实数据上的性能; 2)提出了一种通过域自适应的人群计数方法,可以使人类摆脱繁重的数据注释。大量实验表明,第一种方法可以在四个真实数据集上实现最先进的性能,而第二种方法则优于基线。

1. Introduction

       ~~~~~~       人群计数是人群分析的一个分支,它在视频监控、公共区域规划、交通流监测等方面起着至关重要的作用。这项任务的目的是预测密度地图和估计人群场景的人数。目前,许多CNN和GAN在现有的数据集上获得了惊人的性能。上述方法着重于如何学习有效的和有区别的特征(如局部模式、全局上下文、多尺度特征等)来提高模型的性能。
       ~~~~~~       同时,上述主流的深度学习方法需要大量的准确标记和多样化的数据。不幸的是,当前的数据集不能完全满足需求,这也导致了两个难以解决的难题。首先,它导致现有的方法无法处理一些在野外看不到的极端情况(如多变的天气、不同的照明和大范围的人)。其次,由于带标签的数据很少,很多算法都存在过度拟合的问题,导致算法在野外或其他场景中的性能大幅下降。此外,拥挤的人群数据集有一个固有的问题:标签不是很准确,比如UCFCC50和Shanghai Tech A(简称SHTA)中的一些样本。
       ~~~~~~       为了解决上述问题,我们从数据和方法两个方面入手。从数据的角度,我们开发了一个数据收集器和标签器,它可以生成合成的人群场景并自动标注。通过收集器和标签器,我们构建了一个大规模的、多样化的合成人群计数数据集。数据收集自电子游戏《侠盗猎车手V》(GTA5),因此被命名为GTA5Crowd Counting(简称GCC)数据集。与现有的真实数据集相比,它有四个优点:1)无需收集和注释;2)数据量大,分辨率高;3)场景更丰富,4)注释更准确。具体统计数据见表1:
在这里插入图片描述
       ~~~~~~       从方法学的角度,我们提出了两种利用合成数据来提高野外性能的方法。首先,我们提出一种监督策略来减少过拟合现象。具体来说,我们首先利用大规模的合成数据来预训练一个人群计数器,这就是我们设计的空间全卷积网络(SFCN)。然后利用实际数据对得到的计数器进行了修正。该策略可以有效地提高实际数据的性能。传统的模型(从零开始训练或图像分类模型)存在一些层具有随机初始化或规则分布,这不是一个好的方案。与它们相比,我们的策略可以提供更完整和更好的初始化参数。
       ~~~~~~       其次,我们提出了一种领域自适应的人群计数方法,可以提高跨领域的转移能力。具体来说,我们提出了一个SSIM嵌入(SE)循环GAN,它可以有效地把合成的人群场景转换成真实的场景。在训练过程中,我们引入了结构相似度指标(SSIM)损失。这是原始图像和通过两个生成器重建的图像之间的一个损失。与原循环GAN相比,该方法有效地保留了局部图案和纹理信息,特别是在特别拥挤的人群区域和某些背景下。最后,我们将合成的数据转换成逼真的图像。基于这些数据,我们训练了一个没有真实数据标签的人群计数器,它可以在野外很好地工作。图1展示了提出的方法的两个流程图。
在这里插入图片描述
       ~~~~~~       总之,本文的贡献有三方面:

  1. 我们是第一个开发人群计数的数据收集器和标签器,可以自动收集和注释图像,不需要任何劳动力成本。通过使用它们,我们创建了第一个大规模、综合性和多样化的人群计数数据集。
  2. 我们提出了一种预训练方案,以提高原始方法在真实数据上的性能,与随机初始化和ImageNet模型相比,能更有效地减少估计误差。此外,通过该策略,我们提出的SFCN实现了最先进的结果。
  3. 我们首先提出了一种基于领域自适应的人群计数方法,该方法不使用任何真实数据的标签。通过我们设计的SE循环GAN,可以显著减小合成数据与实际数据之间的畴隙。最后,该方法的性能优于两个基线。

2.Related Works

       ~~~~~~       Crowd Counting Methods
       ~~~~~~       主流的基于cnn的人群计数方法通过设计有效的网络架构,产生了新的记录。有的利用多任务学习探索不同任务之间的关系,提高计数性能。有的综合多流、多尺度、多级网络的特点,提高密度图的质量。有的尝试对人群场景的大范围上下文信息进行编码。针对数据量少的问题,有的提出了一种基于自监督学习的无标记网络数据挖掘方法,或者给出了一种负相关学习方法来减少过拟合。

       ~~~~~~       Crowd Counting Datasets
       ~~~~~~       除了算法之外,数据集还可能促进人群计数的发展。UCSD是Chanet等人在加利福尼亚大学圣地亚哥分校发布的第一个人群计数数据集,它记录人行道上的人群,这是一个稀疏的人群场景。 切奈特[9] 提出一个公共购物中心数据集,该数据集记录购物中心场景。Idreeset等人针对高度拥挤的人群场景发布UCFCC50数据集。ZhangExp等人提出了WorldExpo’10数据集,该数据集是从2010年上海世博会的监控摄像头捕获的。尚特尔目前的上海科技数据集,包括高质量的真实世界图像。Idreeset al提出大规模的极端拥塞数据集。表1列出了有关它们的更多详细信息。

       ~~~~~~       Synthetic Dataset
       ~~~~~~       注释地面真相是一项耗时且劳动密集的工作,尤其是对于像素级任务(例如语义分割,密度图估计)。为了解决这个问题,发布了一些综合数据集,以节省人力。Johnson-Robersonet等人提出了一种根据深度信息分析内部引擎缓冲区的方法,该缓冲区可以产生准确的对象蒙版。有的基于一些开源游戏引擎构建合成模型。利用统一引擎构建自动驾驶的合成街景数据,生成像素级的分割标签和深度地图。开发了一个基于虚幻引擎4的合成人再识别数据集。

3. GTA5 Crowd Counting (GCC) Dataset

       ~~~~~~       侠盗猎车手V (GTA5)是一款由Rockstar Games于2013年发行的电脑游戏。在GTA5中,玩家可以沉浸在游戏的虚拟世界中,即基于洛杉矶的虚构城市洛斯桑托斯。GTA5采用自主研发的Rockstar高级游戏引擎(RAGE),提高了绘制距离渲染能力。得益于优秀的游戏引擎,它的场景渲染、纹理细节、天气效果等都非常接近真实世界的情况。此外,Rockstar游戏允许玩家开发非商业性或个人使用的mod。
       ~~~~~~       考虑到上述优点,我们开发了一种基于Script Hook V的GTA5,用于人群计数的数据收集器和标签器。Script Hook V是一个用于开发游戏插件的C ++库。我们的数据采集器利用虚拟世界的对象来构造复杂拥挤的人群场景。然后,收集器从构建的场景中捕获稳定的图像。最后,通过对模板绘制数据的分析,自动标注人员头部的准确位置。
       ~~~~~~       之前的合成GTA5数据集是由游戏编程指导的场景实景。不幸的是,GTA5没有拥挤的场景。因此,我们需要设计一个策略来构建人群场景,这是最明显的区别。

3.1. Data Collection

       ~~~~~~       本节介绍数据收集的管道,该管道包括以下三个模块。
       ~~~~~~       Scene Selection
       ~~~~~~       《侠盗猎车手5》中的虚拟世界是建立在一个虚构的城市上的,其面积为252平方公里。在城市中,我们选择了100个典型的地点,例如海滩,体育场,购物中心,商店等。对于每个位置,四个监视摄像机配备了不同的参数(位置,高度,旋转/俯仰角)。在这些场景中,我们根据常识精心定义了用于放置人员的感兴趣区域(ROI),并排除了一些无效区域。
       ~~~~~~       Person Model
       ~~~~~~       人是人群场景的核心,因此,有必要在我们提出的数据集中描述人模型。在GCC数据集中,我们在GTA5中采用了265个人模型:不同的个人模型具有不同的肤色,性别,形状等。此外,对于每个人模型,它在外观上有六种变化ÿ

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值