NWPU-Crowd

最新推荐文章于 2024-09-13 22:49:44 发布

Lhj0616

最新推荐文章于 2024-09-13 22:49:44 发布

阅读量1.5k

点赞数

分类专栏： Crowd Counting 文章标签：计算机视觉

本文链接：https://blog.csdn.net/Lhj0616/article/details/115874774

版权

Crowd Counting 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

这是最大的人群计数和定位数据集

不同的数据使得计数网络难以学习有用的和可区分的特征

具体来说，1)对负样本的误差估计很多；2)不同场景属性(密度等级和亮度)的数据彼此有显著的影响。因此，如何缓解上述两个问题是一个研究趋势。

现有的人群计数数据集主要包含两种类型:监控场景数据集和一般场景数据集。前者一般记录特定场景下的人群，其中数据一致性明显。对于后者，人群样本是从网上采集的。因此，在这些数据集中有更多的视角变化、遮挡和极度拥挤。

监控场景数据集

监控视图数据集旨在收集特定室内场景或小面积室外位置的人群图像，如市场、步行街和车站。人数通常从0到600不等

王等人[20]构造了一个大规模的合成数据集(GCC)。通过模拟监控摄像头的视角，他们在一个电脑游戏中捕捉了400个人群场景(侠盗猎车手V，GTA V)，总共15，212幅图像。GCC的主要优点是可以提供准确的标签(点和遮罩)和多样的环境。然而，合成数据和真实数据之间存在许多领域转移/差距，限制了它们的实用价值。

对于一些大场面(如体育场、广场)或一些大型集会活动(仪式、朝觐等)。)，传统的固定监控摄像头由于视场较小，不适合使用。为了解决这个问题，其他一些数据集是通过无人机收集的。得益于它们更高的高度、更灵活的视野和自由飞行，与传统的监控摄像机相比，可以记录更多的大场景。有两个具有无人机视图的人群计数数据集，DLR-ACD数据集[28]和DroneCrowd数据集[29]。前者由33幅图像和226，291个注释人物组成，包括一些大型活动:体育、音乐会、交易会等。后者由70个人群场景组成，总共有33，600个droneview图像序列。由于鸟瞰(BEV)的缘故，除了头部以外，看不到行人的全身，所以上述两个数据集很少出现视角变化。

对于一些大场面(如体育场、广场)或一些大型集会活动(仪式、朝觐等)。)，以上传统的固定监控摄像头由于视场较小，不适合使用。为了解决这个问题，其他一些数据集是通过无人机收集的。得益于它们更高的高度、更灵活的视野和自由飞行，与传统的监控摄像机相比，可以记录更多的大场景。有两个具有无人机视图的人群计数数据集，DLR-ACD数据集[28]和DroneCrowd数据集[29]。前者由33幅图像和226，291个注释人物组成，包括一些大型活动:体育、音乐会、交易会等。后者由70个人群场景组成，总共有33，600个droneview图像序列。由于鸟瞰(BEV)的缘故，除了头部以外，看不到行人的全身，所以上述两个数据集很少出现视角变化。

一般场景的一个显著方面是人群密度变化很大，从0到20000不等。此外，单一图像中的多样化场景、光影条件和不均匀的人群分布也是这些数据集的显著属性。

NWPU-Crown数据集随机分为三部分，即训练集、验证集和测试集，分别包含3，109，500和1，500幅图像。具体来说，每个图像以相应的概率随机分配给特定的集合(三个子集依次为0.6、0.1和0.3)，直到数字达到上限。这种策略确保了子集的统计数据(如数据分布、分辨率/计数的平均值)几乎相同。计数度量在前人工作的基础上，我们采用了三个度量来评价计数性能

关于计数的实验在这一节中，我们在建议的NWPU-Crowd上训练十种主流的开源方法，并在评估基准上提交它们的结果。此外，对验证集的进一步实验分析和可视化结果进行了讨论。

评估中涉及的主流方法

MCNN[7]

SANet[33]

PCC Net[34]

Reg+Det Net[35]

C3F-VGG[37]

CSRNet[10]

CANNet[38]

SCAR[39]

BL[41]

SFCN[20]