Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

SurpriseDPD

已于 2023-06-13 21:15:47 修改

阅读量259

点赞数

分类专栏： Crowd Counting 文章标签：计算机视觉人工智能深度学习

于 2019-10-17 20:17:43 首次发布

本文链接：https://blog.csdn.net/weixin_42112828/article/details/102601314

版权

Crowd Counting 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

摘要

本文旨在开发一种方法，该方法可以从具有任意人群密度和任意视角的单个图像准确估计人群数。为此，我们提出了一种简单但有效的多列卷积神经网络（MCNN）架构，以将图像映射到其人群密度图。本文旨在开发一种方法，该方法可以从具有任意人群密度和任意视角的单个图像准确估计人群数。为此，我们提出了一种简单但有效的多列卷积神经网络（MCNN）架构，以将图像映射到其人群密度图。所提出的MCNN允许输入图像具有任意大小或分辨率。通过使用具有不同大小感受野的滤波器，由于透视效果或图像分辨率，每列CNN所学习的特征都可以适应人/头部大小的变化。此外，基于不需要了解输入图像透视图的几何自适应核，可以精确计算出真实的密度图。由于现有的人群计数数据集不足以涵盖我们工作中考虑的所有挑战性情况，我们已经收集并标记了一个大型的新数据集，其中包括1198幅图像，其中有大约330,000个头部被注释。在这个具有挑战性的新数据集以及所有现有数据集上，我们进行了广泛的实验，以验证所提出的模型和方法的有效性。特别是，通过提出的简单MCNN模型，我们的方法优于所有现有方法。此外，实验表明，我们的模型一旦在一个数据集上进行训练，就可以很容易地转移到一个新的数据集上。

1.引言

2015年除夕夜，中国上海发生大规模踩踏事件，造成35人死亡。不幸的是，自那时起，世界各地发生了更多大规模的踩踏事件，造成更多的受害者死亡。出于人群控制和公共安全的目的，从图像或视频中准确估计人群已成为计算机视觉技术的越来越重要的应用。在某些情况下，例如公共集会和体育赛事，参与人员的数量或密度是未来赛事规划和空间设计的重要信息。良好的人群计数方法也可以扩展到其他领域，例如，从显微图像中计数细胞或细菌，在野生动植物保护区进行动物人群估计，或估计交通枢纽或交通拥堵情况下的车辆数量等。

相关工作。文献中已经提出了许多用于人群计数的算法。早期的方法[29]采用了一种检测样式的框架，该框架基于增强的外观和运动特征，在视频序列的两个连续帧上扫描检测器，以估计行人的数量。[19，30，31]为行人计数使用了类似的基于检测的框架。在基于检测的人群计数方法中，人们通常认为人群是由单个实体组成的，这些实体可以由某些给定的检测器检测到[13、34、18、10]。这种基于检测的方法的局限性在于，在聚集环境或非常密集的人群中遮挡会显著影响检测器的性能，从而影响最终的估计精度。
在对视频中的人群进行计数时，人们提出了对跟踪的视觉特征进行聚类的轨迹。例如，[24]使用高度并行化的KLT跟踪器和聚集聚类来估计移动人口。 [3]已经跟踪了简单的图像特征，并有可能将它们分为代表独立运动实体的簇。然而，这种基于跟踪的方法不适用于从单个静止图像估计人群。

可以说，最广泛使用的人群计数方法是基于特征的回归，请参见[4，7，5，27，15,20]。这种方法的主要步骤是：1）分割前景； 2）从前景中提取各种特征，例如人群遮罩的面积[4、7、27、23]，边缘计数[4、7、27、25]或纹理特征[22、7]； 3）u利用回归函数来估计人群数。线性[23]或分段线性[25]函数是相对简单的模型，并且产生不错的性能。其他更先进/有效的方法是岭回归（RR）[7]，高斯过程回归（GPR）[4]和神经网络（NN）[22]。

也有一些专注于从静止图像中众数的作品。[12]提出利用信息的多个来源来计算在单个图像中可见的非常密集的人群中存在的个体数量的估计。在这项工作中，引入了五十个人群图像的数据集，其中包含64个带注解的人类（UCFCC50）。 [2]通过融合来自多个来源的信息来跟踪工作和估计计数，这些信息来自兴趣点（SIFT），傅立叶分析，小波分解，GLCM特征和低置信度头部检测。 [28]已经利用从预训练的CNN中提取的特征来训练支持向量机（SVM），该向量机随后生成静态图像的计数。

最近Zhanget等。 [33]提出了一种基于CNN的方法来计算不同场景中的人群。他们首先为某些场景预训练网络。当给出来自新场景的测试图像时，他们选择相似的训练数据以基于透视图信息和密度图中的相似性对预训练网络进行微调。他们的方法在大多数现有数据集上表现出良好的性能，但是他们的方法需要训练场景和测试场景上的透视图。不幸的是，在人群计数的许多实际应用中，透视图并不容易获得，这限制了这种方法的适用性。

图1：（a）我们的新人群数据集中的PartA代表图像。（b）我们的人群数据集中的PartB的代表性图像。（b）中的所有脸部都会模糊，以保留隐私。

本文的贡献。本文旨在通过任意摄像机视角和人群密度对任意静止图像进行准确的人群计数（一些典型示例参见图1）。乍一看，这似乎是一项艰巨的任务，因为我们显然需要克服一系列挑战:

1.在大多数现有工作中，前景分割是必不可少的。但是前景分割本身就是一项艰巨的任务，不正确的分割将对最终计数产生不可逆的不利影响。在我们的任务中，图像的视点可以是任意的。如果没有有关场景几何或运动的信息，几乎不可能准确地从背景中分割出人群。因此，我们必须估计人群的数量而不先分割前景

2..人群的密度和分布在我们的任务（或数据集）中有显着变化，通常每个图像中的大多数人都有巨大的遮挡。因此，传统的基于检测的方法不适用于此类图像和情况。

3.由于图像中人物的比例可能存在很大差异，因此我们需要一起使用不同比例的特征，以便准确估计不同图像的人群数量。由于我们没有可追踪的要素，因此很难手工制作所有不同比例的要素，我们不得不求助于可以自动学习有效特征的方法。

为了克服上述挑战，在这项工作中，我们提出了一种基于卷积神经网络（CNN）[9，16]的新颖框架，用于在任意静止图像中进行人群计数。更具体地说，我们根据[8]的工作提出了一种多列卷积神经网络（MCNN），它提出了用于图像分类的多列深度神经网络。在他们的模型中，可以使用不同方式预处理的输入来训练任意数量的列。然后，通过平均所有深度神经网络的单个预测来获得最终预测。我们的MCNN包含三列卷积神经网络，其过滤器的大小不同。 MCNN的输入是图像，其输出是人群密度图，其积分给出了总体人群数。本文的贡献总结如下：

1.我们之所以采用多列架构的原因很自然：三列对应于具有不同大小（大，中，小）接受域的过滤器，因此每个列CNN所学习的功能都可以适应（因此总体上网络是健壮的）由于透视效应或跨不同图像分辨率而造成的人/头大小的巨大差异-

2。在我们的MCNN中，我们将全连接层替换为滤波器大小为1×1的卷积层，因此我们模型的输入图像可以是任意网格大小，以避免失真。网络的直接输出是对人群密度的估计，从中可以得出总体计数。

3.我们收集了一个新的数据集，用于评估人群计数方法。现有的人群计数数据集无法在本工作考虑的各种场景中全面测试算法的性能，因为它们在视点变化（UCSD，WorldExpo'10），人群计数（UCSD），数据集规模（UCSD）方面存在局限性，UCFCC50）或各种场景（UCFCC50）。在这项工作中，我们引入了一个名为Shanghaitech的新的大规模人群数据集，该数据集包含近1200张图像和约330,000个准确标记的头部。据我们所知，就数量注释头而言，它是最大的人群计数数据集。此数据集中没有从同一视点拍摄两个图像。该数据集由两个部分组成：PartA和PartB。 PartA中的图像是从Internet上随机爬取的，其中大多数人很多。 B部分取自上海大都市的繁忙街道。我们已经手动注释了图像的两个部分，并将根据请求共享此数据集。图1显示了该数据集的一些代表性样本。

2.用于人群计数的多列CNN

2.1 基于密度图的人群计数

为了通过卷积神经网络（CNN）估计给定图像中的人数，有两种自然配置。一个是网络，其输入是图像，而输出是估计的人数。另一个是输出人群的密度图（例如每平方米有多少人），然后通过积分获得人数。在本文中，出于以下原因，我们赞成第二选择：

1.密度图保留更多信息。与人群总数相比，密度图给出了给定图像中人群的空间分布，这种分布信息可用于许多应用。例如，如果一个小区域的密度远高于其他区域的密度，则可能表明那里发生了异常情况。

2。在通过CNN学习密度图时，所学习的过滤器更适合于不同大小的人头，因此更适合于透视效果显着变化的任意输入。因此，过滤器在语义上更有意义，因此提高了人群计数的准确性。

2.2。通过几何自适应核的密度图

由于需要训练CNN来从输入图像中估计人群密度图，因此训练数据中提供的密度质量在很大程度上决定了我们方法的性能。我们首先描述如何将带有标签人头的图像转换为人群密度图。如果在像素点 xi处有一个头，我们将其表示为增量函数δ（x-xi）。因此，带有N个人头标签的图像可以表示为一个函数：

为了将其转换为连续密度函数，我们可以将该函数与高斯核[17]Gσ进行卷积，以使密度为F（x）= H（x）*Gσ（x）。但是，这样的密度函数假定这些在图像平面上独立的样本不是这种情况：实际上，每个xi都是3D场景中由于透视失真而在地面上的人群密度的样本，并且与不同样本关联的像素对应于不同大小的区域在现场。

因此，为了准确地估计人群密度F，我们需要考虑地面和图像平面之间的全息图引起的畸变。不幸的是，对于手头的任务（和数据集），我们通常不会知道场景的几何形状。但是，如果我们假设每个头周围的人群都是某种程度的均匀分布，那么头和它的最近邻居之间的平均距离（在图像中）将给出几何失真的合理估计值（由透视效应引起）。

因此，我们应该基于图像中每个人的头部大小来确定传播参数σ。但是，实际上，在很多情况下，由于闭塞，几乎不可能准确地获得头部的大小，并且很难找到头部大小与密度图之间的潜在关系。有趣的是，我们发现头的大小通常与人群中两个相邻人的中心之间的距离有关（请参见图2）。作为一种折衷，对于那些拥挤的场景的密度图，我们建议根据每个人与邻居的平均距离来自适应地确定其传播参数。

对于给定图像的每个人头，我们将其与近邻的k个人头的距离表示为{di1，di2，。。。，dim}。因此，平均距离为̄di= 1m∑mj = 1 dij。因此，与xi相关的像素对应于场景中地面上大约与̄di成比例的半径的区域。因此，要估算像素xi周围的人群密度，我们需要将δ（x-xi）与方差为σi的高斯核进行卷积。更准确地说，密度应该是：

对于某些参数β。换句话说，我们对标签H进行卷积处理，将密度核与每个数据点周围的局部几何形状相适应，称为几何适应性内核。在我们的实验中，我们凭经验发现β= 0.3可获得最佳结果。在图2中，我们在数据集中显示了两个示例图像的密度图。

图2：通过对几何自适应高斯核进行卷积获得的原始图像和相应的人群密度图。

2.3。用于密度图估计的多列CNN

由于透视畸变，图像通常包含大小各异的头部，因此具有相同大小的接收场的滤镜不太可能捕获不同比例的人群密度特征。因此，使用具有不同大小的局部接收场的滤波器来学习从原始像素到密度图的映射是更自然的。受多列深层神经网络（MDNN）成功的推动[8]，我们建议使用多列CNN（MCNN）来学习目标密度图。在我们的MCNN中，对于每一列，我们使用不同大小的过滤器来建模对应于不同比例头的密度图。例如，具有较大接收场的滤波器对于建模对应于较大扬程的密度图更为有用。

图3：提出的用于人群密度图估计的多列卷积神经网络的结构。

我们的MCNN的整体结构如图3所示。它包含三个并行的CNN，其滤波器具有不同大小的局部接收场。为了简化，我们对所有列使用相同的网络结构（即，conv-pooling-conv-pooling），但过滤器的大小和数量除外。每个2×2区域均采用最大池化，并且由于其对CNN的良好性能，因此采用整流线性单元（ReLU）作为激活函数[32]。为降低计算复杂度（要优化的参数数量），我们对于具有较大过滤器的CNN，使用较少数量的过滤器。我们堆叠所有CNN的输出特征图，并将它们映射到密度图。为了将特征图映射到密度图，我们采用大小为1×1 [21]的滤波器。然后，使用欧几里得距离来测量估计的密度图和地面实况之间的差异。损失函数定义如下：

其中Θ是MCNN中一组可学习的参数.N是训练图像的数量.Xii是输入图像，Fi是图像Xi的地面真实密度图.F（Xi;Θ）代表MCNN生成的估计密度图，其中对于样本Xi，用θ参数化。

备注）由于我们使用两层最大池，因此每个图像的空间分辨率降低了1/4倍。因此，在训练阶段，在生成密度图之前，我们还要对每个训练样本进行1/4个下采样。 ii）传统的C-NN通常将其输入图像规格化为相同的大小。在这里，我们更喜欢输入图像为原始大小，因为将图像调整为相同的大小会在密度图中引入附加的失真，这很难避免- 体贴 iii）除了滤波器的CNN大小不同外，我们的MCNN与传统的MDNN之间的另一个区别是，我们将所有CNN的输出结合了可学习的权重（即1×1滤波器）。相反，在[8]提出的MDNN中，输出被简单地平均。

2.4。 MCNN的优化

损失函数（1）可通过基于批次的随机梯度下降和反向传播进行优化，这是训练神经网络的典型方法。然而，实际上，由于训练样本的数量非常有限，并且梯度消失对于深度神经网络的影响，要同时学习所有参数并不容易。受RBM预训练成功的启发[11]，我们通过直接将第四卷积层的输出映射到密度图来分别在每个单列中对CNN进行预训练。然后，我们使用这些预训练的CNN初始化CNN 在所有列中,同时调整所有参数。

2.5。转移学习

设置这种MCNN模型用于密度估计的一个优点是可以学习过滤器以建模具有不同大小的磁头的密度图。因此，如果将模型训练在包含不同大小首部的大型数据集上，则可以轻松地将模型适配（或转移）到其他人群首部具有特定大小的数据集。如果目标域仅包含一些训练样本，则可以在我们的MCNN中的每一列中简单地修复前几层，并且仅微调最后几个卷积层。在这种情况下，微调最后几层有两个优点。首先，通过固定前几层，可以保留在源域中学习的知识，并且通过微调最后几层，可以使模型适应目标领域。因此，源域和目标域的知识可以集成在一起，并有助于提高准确性。其次，与对整个网络进行微调相比，对最后几层进行微调大大降低了计算复杂度。

3.实验

我们在四个不同的数据集-三个现有数据集和我们自己的数据集上评估我们的MCNN模型。尽管与文献中大多数基于DNN的方法相比，所提出的MCNN模型不是特别深，也不复杂，但它在所有数据集中都具有竞争性，而且往往表现优异。最后，我们还演示了这种简单模型在转移学习环境中的可推广性（如2.5节所述）。拟议网络的实现及其训练均基于[14]开发的Caffe框架。

3.1。评估指标

按照现有工作[28] [33]的惯例进行人群计数，我们评估绝对误差（MAE）和均方误差（MSE）的不同方法，其定义如下：

其中N是测试图像的数量，zi是第i个图像中的实际人数，而zi是第i个图像中的估计人数。粗略地说，MAE表示估计的准确性，MSE表示估计的鲁棒性。

3.2. Shanghaitech dataset

由于现有数据集并不完全适合评估这项工作中考虑的人群计数任务,引入了一个名为Shanghaitech的新的大规模人群计数数据集，其中包含1198个带注释的图像，总共330,165人的头部中心带有注释。据我们所知，该数据集是被注释人数最大的一个项。该数据集由两部分组成：PartA中有482张图像是从Internet上随机抓取的，PartB中有716张图像是从上海大都市繁忙的街道上拍摄的。人群密度在两个子集之间显着变化，这使得人群的准确估计比大多数现有数据集更具挑战性。PartA和PartB都分为训练和测试：300个PartA图像用于训练，其余182个图像用于测试； 400个PartB图像用于训练和316个测试。表1给出了上海科技数据集的统计数据及其与其他数据集的比较。我们还在图4中给出了该数据集中图像的人群直方图。如果工作被接受出版，我们将发布数据集，注释以及训练/测试协议。

为了增强用于训练MCNN的训练集，从每个图像的不同位置裁剪了9个补丁，每个补丁的大小是原始图像的1/4。所有补丁都用于训练我们的MCNN模型。对于PartA，由于人群密度通常很高，因此我们使用适应几何的内核生成密度图s，并通过平均计算重叠区域的预测密度。对于PartB，由于人群相对稀疏，我们在高斯核中使用相同的散布来生成（地面真实情况）密度图。在我们的实现中，我们首先独立地对MCNN的每一列进行预训练。然后我们微调整个网络（什么意思）。图5显示了PartA中图像的地面真实密度图和估计密度图的示例。

我们将我们的方法与Zhangetal的工作进行比较。 [33]，它也使用CNN进行人群计数并达到当时最新的准确性。继[33]的工作之后，我们还将我们的工作与基于回归的方法进行了比较，该方法使用从原始图像中提取的局部二进制模式（LBP）特征作为输入，并使用岭回归（RR）来预测每个图像的人群数。为了提取LBP特征，将每个图像均匀地分为A部分的8×8块和B部分的12×16块，然后提取每个块中的59维均匀LBP，并将所有均匀LBP特征连接在一起以表示图像。真实值是64D或192D向量，其中每个条目是相应贴片中每个儿子的总数。我们在表2中比较了上海科技数据集上所有方法的性能。

在MCNN中进行预训练的效果。我们在图6中显示了未进行预训练的模型对Shanghaitech数据集PartA的影响。我们看到，经过预训练的网络要优于未经预训练的网络。结果证明了对MCNN进行预训练的必要性，因为从随机初始化开始的优化往往会陷入局部最小值。

单列CNN与MCNN的比较。图6显示了上海科技数据集PartA中单列CNN与MCNN的比较。可以看出，对于MAE和MSE，MCNN的性能明显优于每列CNN。这验证了MCNN体系结构的有效性。

不同损失函数的比较。我们评估具有不同损失函数的框架的性能。除了将图像映射到其密度图之外，我们还可以将图像直接映射到图像中的总人数。对于输入图像Xi（i = 1，...，N），其总头数为zi，而F（Xi;Θ）代表估计的密度图，Θ是MCNN的参数。然后磨损以下目标函数：

这里，S代表估计密度图的空间区域，并且不使用密度图的地面真相。对于这种损失，我们还分别对每列中的CNN进行了预训练。我们称这种基线为基于MCNN的人群计数回归（MCNN-CCR）。表2列出了基于这种损失函数的性能，并将其与两种现有方法以及基于密度图估计的方法（简称为MCNN）进行了比较。我们发现基于人群计数回归的结果相当差。在某种程度上，学习密度图可以保留更多图像信息，从而有助于提高计数准确性。（意思就是还是用密度图来做精读好）。

在图7中，我们将我们的方法的结果与Zhanget等人的方法进行了比较。 [33]更详细。根据人群计数，我们将PartA和PartB中的测试图像分为10组。我们在PartA和PartB中有182 + 316test张图像。除了第十组包含20 + 37张图像外，其他各组各有18 + 31张图像。从图中可以看出，对于人群数量/密度的大变化，我们的方法更加准确和可靠。

图7：我们的方法与Zhanget等人的比较。 [33]在上海科技数据集上：根据人数的增加，我们将测试图像平均分为10组。垂直轴上的绝对计数是每组图像的平均人群数量。

3.3. The UCFCC50 dataset

UCFCC50数据集由H.Idreeset等人首先引入。 [12]。该数据集包含来自Internet的50张图像。这是一个非常具有挑战性的数据集，因为不仅图像数量有限，而且图像的人群数量也发生了巨大变化。头部数介于94和4543之间，每个图像平均有1280个人。作者总共为这50张图像提供了63974条注释。我们按照[12]中的标准设置执行5倍交叉验证。与Shanghaitech数据集中的数据增强方法相同。

我们将我们的方法与表3中关于UCFCC50数据集的四种现有方法进行了比较。Rodriguezet al. [26]使用密度图估计在人群场景中获得更好的头部检测结果。Lempitskyet等。 [17]在随机选择的补丁和MESA距离上采用密集的SIFT特征来学习密度回归模型。文献[12]中提出的方法通过使用多源特征获得人群计数估计。 Zhanget al。[33]的工作基于人群CNN模型来估计图像的人群数量。我们的方法实现了最佳的MAE，并与现有方法可比的MSE。

3.4. The UCSD dataset

我们还在UCSD数据集[4]上评估了我们的方法。该数据集包含从UCSD校园中的一台监视相机选择的2000帧。画面尺寸为158×238，并以10 fps的速度重新编码。每帧平均只有大约25个人（请参阅表1）。数据集提供了每个视频帧的ROI。

通过使用与[4]相同的设置，我们使用601至1400帧作为训练数据，其余1200帧用作测试数据。该数据集不能满足人群均匀分布的假设。因此，我们固定了密度图的σ。 ROI之外的像素强度设置为零，我们还使用ROI修改最后一个卷积层。表4显示了此数据集上我们的方法和其他方法的结果。提出的MCNN模型优于基于前景分割的方法和基于CNN的方法[33]。这表明我们的模型不仅可以估计人群非常密集的图像，而且可以估计相对稀疏人群的图像。

3.5. The WorldExpo’10 dataset

Zhanget等人首先引入了WorldExpo的10个人群计数数据集。 [33]。该数据集包含1132个带批注的视频序列，这些视频序列由108个Surveil-lance摄像机捕获，全部来自2010年上海世博会。 [33]的助手在3980帧的头部中心提供了总共199,923条带注释的行人。 3380帧用于训练数据。测试数据集包括五个不同的视频序列，每个视频序列包含120个标记帧。为测试场景提供了五个不同的关注区域（ROI）。

在该数据集中，给出了透视图。为了公平地比较，我们按照[33]的工作，根据透视图生成了密度图，其关系为σ= 0.2 * M（x），M（x）表示图像中代表一平方米的像素数s 与[33]一致，在每个测试场景中仅考虑ROI区域。因此，我们基于ROI掩码修改了最后一个卷积层，即将与ROI之外的区域相对应的神经元设置为零。我们使用[33]作者建议的相同评估指标（MAE）。表5报告了五个测试视频序列中不同方法的结果。就平均MAE而言，我们的方法还比微调的人群CNN模型[33]实现了更好的性能。

3.6。迁移学习评估

为了证明所学模型在我们的方法中的可推广性，我们通过使用Shanghaitech数据集的PartA作为源域，并使用UCFCC50数据集作为tar-get域，在转移学习环境中测试了我们的方法。具体来说，我们使用源域中的数据训练MCNNs模型。对于目标域中的人群计数任务，我们进行两种设置，即（i）目标域中没有训练样本，以及（ii）目标域中只有很少的样本。对于情况（i），我们直接使用在Shanghaitech数据集的PartA上训练的模型进行评估。对于情况（ii），我们使用目标域中的训练样本对网络进行微调。表6中报告了不同设置的性能。在UCFCC50和PartA上训练的模型之间的准确性差异相似（377.7与397.7），这意味着在PartA上训练的模型已经足以满足UCFCC50上的任务。通过使用UCFCC50上的训练数据对MCNN的最后两层进行微调，可以大大提高准确性（377.7对295.1）。但是，如果对整个网络进行了微调，而不是仅对最后两层进行了微调，则性能会明显下降（295.1 vs 378.3），但仍可以与使用目标训练数据训练的M-CNN模型进行比较（377.7 vs 378.31）。 -主要。微调整个网络和微调最后两层之间的性能差距可能是由于我们在UCFCC50数据集中训练样本有限的原因。对最后两层进行微调可确保模型的输出适合目标域，并保持模型的前几层完好无损，可确保从源域中的足够数据中获悉的良好功能/过滤器将得以保留。但是，如果用目标域中的数据不足来微调w-hole网络，则学习的模型将变得与仅使用目标域中的训练数据的模型相似。因此，性能会下降到其他情况下学习的模型。

能力6：跨数据集转移学习。 “不带传递的MCNN”表示我们仅使用UCFCC50中的训练数据来训练MCNN，而未使用来自源域的数据。 “在PartA上训练的MCNN”意味着我们不使用目标域中的训练数据来微调在源域中训练的MCNN

4.结论

本文提出了一种多列卷积神经网络，它可以从几乎任何角度准确地估计单个图像中的人群数量。为了更好地评估实际条件下人群计数方法的性能，我们收集并提出了一个名为Shanghaitech的新数据集，该数据集由两部分组成，总共有330,165人被注释。就带注释的人群计数而言，这是迄今为止最大的数据集。我们的模型在用于评估的所有数据集上都优于现有的计数方法。此外，通过仅对训练模型的最后几个层进行微调，我们可以将在源域上训练的模型轻松地转移到目标域提出的模型。

SurpriseDPD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

摘要本文旨在开发一种方法，该方法可以从具有任意人群密度和任意视角的单个图像准确估计人群数。为此，我们提出了一种简单但有效的多列卷积神经网络（MCNN）架构，以将图像映射到其人群密度图。本文旨在开发一种方法，该方法可以从具有任意人群密度和任意视角的单个图像准确估计人群数。为此，我们提出了一种简单但有效的多列卷积神经网络（MCNN）架构，以将图像映射到其人群密度图。所提出的MC...
复制链接

扫一扫