《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记

最新推荐文章于 2022-01-10 18:04:46 发布

大王子呀

最新推荐文章于 2022-01-10 18:04:46 发布

阅读量1k

点赞数 2

分类专栏：人群密度 paper

本文链接：https://blog.csdn.net/weixin_42994580/article/details/103730427

版权

Learning from Synthetic Data for Crowd Counting in the Wild

论文翻译

论文翻译

Abstract

最近，统计人群中的人数成为热门话题，因为它具有广泛的用途（例如，视频监视，公共安全）。在户外，这是一项艰巨的任务：多变的环境，大量重叠的人导致当前的方法无法正常工作。此外，由于缺乏数据，许多方法在不同程度上都存在过度拟合的问题。为了解决上述两个问题，首先，我们开发了一种数据收集器和标签器，可以生成人工场景并同时对它们进行批注，而无需任何人工操作。在此基础上，我们构建了一个大规模，多样化的综合数据集。其次，我们提出了两种利用合成数据来提高野外人群计数性能的方案：1）在合成数据上预训练人群计数器，然后使用真实数据对其进行微调，这极大地促进了模型在真实数据上的性能； 2）提出了一种通过域自适应的人群计数方法，可以使人类摆脱繁重的数据注释。大量实验表明，第一种方法可以在四个真实数据集上实现最先进的性能，而第二种方法则优于基线。

1. Introduction

人群计数是人群分析的一个分支，它在视频监控、公共区域规划、交通流监测等方面起着至关重要的作用。这项任务的目的是预测密度地图和估计人群场景的人数。目前，许多CNN和GAN在现有的数据集上获得了惊人的性能。上述方法着重于如何学习有效的和有区别的特征(如局部模式、全局上下文、多尺度特征等)来提高模型的性能。
同时，上述主流的深度学习方法需要大量的准确标记和多样化的数据。不幸的是，当前的数据集不能完全满足需求，这也导致了两个难以解决的难题。首先，它导致现有的方法无法处理一些在野外看不到的极端情况(如多变的天气、不同的照明和大范围的人)。其次，由于带标签的数据很少，很多算法都存在过度拟合的问题，导致算法在野外或其他场景中的性能大幅下降。此外，拥挤的人群数据集有一个固有的问题:标签不是很准确，比如UCFCC50和Shanghai Tech A(简称SHTA)中的一些样本。
为了解决上述问题，我们从数据和方法两个方面入手。从数据的角度，我们开发了一个数据收集器和标签器，它可以生成合成的人群场景并自动标注。通过收集器和标签器，我们构建了一个大规模的、多样化的合成人群计数数据集。数据收集自电子游戏《侠盗猎车手V》(GTA5)，因此被命名为GTA5Crowd Counting(简称GCC)数据集。与现有的真实数据集相比，它有四个优点:1)无需收集和注释;2)数据量大，分辨率高;3)场景更丰富，4)注释更准确。具体统计数据见表1:
在这里插入图片描述
从方法学的角度，我们提出了两种利用合成数据来提高野外性能的方法。首先，我们提出一种监督策略来减少过拟合现象。具体来说，我们首先利用大规模的合成数据来预训练一个人群计数器，这就是我们设计的空间全卷积网络(SFCN)。然后利用实际数据对得到的计数器进行了修正。该策略可以有效地提高实际数据的性能。传统的模型(从零开始训练或图像分类模型)存在一些层具有随机初始化或规则分布，这不是一个好的方案。与它们相比，我们的策略可以提供更完整和更好的初始化参数。
其次，我们提出了一种领域自适应的人群计数方法，可以提高跨领域的转移能力。具体来说，我们提出了一个SSIM嵌入(SE)循环GAN，它可以有效地把合成的人群场景转换成真实的场景。在训练过程中，我们引入了结构相似度指标(SSIM)损失。这是原始图像和通过两个生成器重建的图像之间的一个损失。与原循环GAN相比，该方法有效地保留了局部图案和纹理信息，特别是在特别拥挤的人群区域和某些背景下。最后，我们将合成的数据转换成逼真的图像。基于这些数据，我们训练了一个没有真实数据标签的人群计数器，它可以在野外很好地工作。图1展示了提出的方法的两个流程图。
在这里插入图片描述
总之，本文的贡献有三方面:

我们是第一个开发人群计数的数据收集器和标签器，可以自动收集和注释图像，不需要任何劳动力成本。通过使用它们，我们创建了第一个大规模、综合性和多样化的人群计数数据集。
我们提出了一种预训练方案，以提高原始方法在真实数据上的性能，与随机初始化和ImageNet模型相比，能更有效地减少估计误差。此外，通过该策略，我们提出的SFCN实现了最先进的结果。
我们首先提出了一种基于领域自适应的人群计数方法，该方法不使用任何真实数据的标签。通过我们设计的SE循环GAN，可以显著减小合成数据与实际数据之间的畴隙。最后，该方法的性能优于两个基线。

2.Related Works

Crowd Counting Methods
主流的基于cnn的人群计数方法通过设计有效的网络架构，产生了新的记录。有的利用多任务学习探索不同任务之间的关系，提高计数性能。有的综合多流、多尺度、多级网络的特点，提高密度图的质量。有的尝试对人群场景的大范围上下文信息进行编码。针对数据量少的问题，有的提出了一种基于自监督学习的无标记网络数据挖掘方法，或者给出了一种负相关学习方法来减少过拟合。

Crowd Counting Datasets
除了算法之外，数据集还可能促进人群计数的发展。UCSD是Chanet等人在加利福尼亚大学圣地亚哥分校发布的第一个人群计数数据集，它记录人行道上的人群，这是一个稀疏的人群场景。切奈特[9] 提出一个公共购物中心数据集，该数据集记录购物中心场景。Idreeset等人针对高度拥挤的人群场景发布UCFCC50数据集。ZhangExp等人提出了WorldExpo’10数据集，该数据集是从2010年上海世博会的监控摄像头捕获的。尚特尔目前的上海科技数据集，包括高质量的真实世界图像。Idreeset al提出大规模的极端拥塞数据集。表1列出了有关它们的更多详细信息。

Synthetic Dataset
注释地面真相是一项耗时且劳动密集的工作，尤其是对于像素级任务（例如语义分割，密度图估计）。为了解决这个问题，发布了一些综合数据集，以节省人力。Johnson-Robersonet等人提出了一种根据深度信息分析内部引擎缓冲区的方法，该缓冲区可以产生准确的对象蒙版。有的基于一些开源游戏引擎构建合成模型。利用统一引擎构建自动驾驶的合成街景数据，生成像素级的分割标签和深度地图。开发了一个基于虚幻引擎4的合成人再识别数据集。

3. GTA5 Crowd Counting (GCC) Dataset

侠盗猎车手V (GTA5)是一款由Rockstar Games于2013年发行的电脑游戏。在GTA5中，玩家可以沉浸在游戏的虚拟世界中，即基于洛杉矶的虚构城市洛斯桑托斯。GTA5采用自主研发的Rockstar高级游戏引擎(RAGE)，提高了绘制距离渲染能力。得益于优秀的游戏引擎，它的场景渲染、纹理细节、天气效果等都非常接近真实世界的情况。此外，Rockstar游戏允许玩家开发非商业性或个人使用的mod。
考虑到上述优点，我们开发了一种基于Script Hook V的GTA5，用于人群计数的数据收集器和标签器。Script Hook V是一个用于开发游戏插件的C ++库。我们的数据采集器利用虚拟世界的对象来构造复杂拥挤的人群场景。然后，收集器从构建的场景中捕获稳定的图像。最后，通过对模板绘制数据的分析，自动标注人员头部的准确位置。
之前的合成GTA5数据集是由游戏编程指导的场景实景。不幸的是，GTA5没有拥挤的场景。因此，我们需要设计一个策略来构建人群场景，这是最明显的区别。

3.1. Data Collection

本节介绍数据收集的管道，该管道包括以下三个模块。
Scene Selection
《侠盗猎车手5》中的虚拟世界是建立在一个虚构的城市上的，其面积为252平方公里。在城市中，我们选择了100个典型的地点，例如海滩，体育场，购物中心，商店等。对于每个位置，四个监视摄像机配备了不同的参数（位置，高度，旋转/俯仰角）。在这些场景中，我们根据常识精心定义了用于放置人员的感兴趣区域（ROI），并排除了一些无效区域。
Person Model
人是人群场景的核心，因此，有必要在我们提出的数据集中描述人模型。在GCC数据集中，我们在GTA5中采用了265个人模型：不同的个人模型具有不同的肤色，性别，形状等。此外，对于每个人模型，它在外观上有六种变化ÿ

最低0.47元/天解锁文章

大王子呀

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
《Learning from Synthetic Data for Crowd Counting in the Wild》论文笔记

Learning from Synthetic Data for Crowd Counting in the Wild论文翻译Abstract1. Introduction2.Related Works3. GTA5 Crowd Counting (GCC) Dataset3.1. Data Collection3.2. Properties of GCC4. Supervised Crowd C...
复制链接

扫一扫