Towards Perspective-Free Object Counting with Deep Learning论文翻译

SurpriseDPD

已于 2023-06-13 21:15:18 修改

阅读量116

点赞数

分类专栏： Crowd Counting 文章标签：密集人群计数

于 2019-10-12 15:14:34 首次发布

本文链接：https://blog.csdn.net/weixin_42112828/article/details/102508257

版权

Crowd Counting 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

人车密度估计--Towards perspective-free object counting with deep learning_O天涯海阁O的博客-CSDN博客

上述链接给出了改论文的翻译和笔记

摘要

本文讨论图像中对象实例的计数问题。我们的模型能够精确地估计出交通拥挤时的车辆数量，或者计算出拥挤场景中的人。我们的第一个贡献是提出了一种新的卷积神经网络解决方案，称为计数cnn（ccnn）。本质上，ccnn是一个回归模型，在这个模型中，网络学习如何将图像块的外观映射到它们对应的对象密度映射。我们的第二个贡献在于一个尺度感知的计数模型hydra-cnn，它能够在不同的非常拥挤的场景中估计物体密度，在这些场景中无法提供几何信息。hydra-cnn学习了一个多尺度非线性回归模型，该模型使用在多尺度上提取的图像块金字塔来执行最终的密度预测。我们报告了一个广泛的实验评估，使用了三个不同的对象计数基准，在这里我们展示了我们的解决方案如何实现最先进的性能。

1.引言

拍摄场景拥挤或交通拥堵的图像。我们在这里解决在这些情况下准确计算对象实例的难题。开发这种想法可以构建从解决方案以提高体育场馆安全性的应用程序到精确监控交通拥堵如何变化的系统。

请注意，单个物体探测器(例如[1，2])在很多的典型场景不能可靠工作。原因是:对象的极度重叠、实例的大小、场景视角等。因此，将计数问题建模为对象密度估计之一的方法已经系统地定义了最先进的[3，4，5，6，7]。为此，我们在这里提出了两种用于对象密度图估计的深度学习模型。

我们将对象计数任务定义为回归问题，其中深度学习模型必须学习如何将图像块映射到对象密度。

如图1所示，我们解决了计数问题，提出了深度学习架构，该架构能够学习将图像外观投影到对象密度图中的回归函数。这允许为看不见的图像得出估计的物体密度图。

这项工作的主要贡献如下。首先，在第一节。3.2、我们提出了一种新的深度网络结构，命名为计数CNN(CCNN)，这是一种高效的全卷积神经网络，能够从图像块到对象密度图的精确回归。其次，我们表明，与大多数需要这种信息的最先进的方法[3、4、5、6、7、8]相比，可以在不需要任何透视地图（角度信息）或场景的其他几何信息的情况下估计物体密度。因此，我们在第3.3节中介绍HydraCNN架构，一个尺度感知模型，学习多尺度回归器，用于将多尺度块金字塔的外观映射到对象密度图。像神话中的九头蛇一样，我们九头蛇的每一个头都学习金字塔特定尺度的特征表示。然后，将所有这些头部特征连接起来，并穿过一组完全连接的层，从而形成九头蛇的身体，该九头蛇的主体负责学习执行最终密度估计的高维表示。第三，在第三节。4、我们报告了对所提出模型的彻底实验验证。使用了三个公开可用的数据集，两个用于人群计数[4，9]，一个用于车辆计数[10]。我们展示了我们的解决方案如何在所有这些异构场景中报告最先进的结果。

2.相关工作

在计算图像中的对象方面已经取得了显著的进展。我们请读者参考洛伊等人对[的调查8]。按照[8]中引入的分类法，算法可以分为三组:通过检测[1、2、11、12、13、14、15、16进行计数，通过聚类[17、18进行计数，以及通过回归[3、4、5、6、7、19、20进行计数]。

在这里，我们将文献的重点放在回归模型的计数上，因为我们的方法也属于这一类。还要因为与其他小组相比，这些方法到目前为止更准确，更快，所以在大多数基准测试中都定义了最新的结果。本质上，这些方法定义了从输入图像特征到对象计数的映射。Lempitsky和Zisserman [6]的学习计数模型值得特别关注。他们引入了一种计数方法，通过学习从局部图像特征到对象密度图的线性映射来工作。通过成功的学习，可以通过简单地在估计密度图中的多个区域上积分来提供对象计数。[5，20]也遵循这一策略，其中将结构化学习框架应用于随机森林，以便获得对象密度图估计。在[3]中，作者提出了一种交互式计数系统，它简化了昂贵的计数学习方法，[6]提出使用简单的岭回归器。

我们的模型还将计数问题视为对象密度估计任务，但它们是基于深度学习的方法，与之前的工作有很大不同。据我们所知，只有两篇著作[7，21]解决了深度学习架构中的对象计数问题。在[21]中，提出了一种多列CNN，该方法将由不同大小的滤波器生成的特征图进行堆叠，并将它们组合起来以生成最终的计数预测。张等 [7]提出了一种CNN体系结构来预测密度图，它需要在使用两个不同损失函数的可切换学习过程之后进行训练。而且，对于人群计数问题，他们不使用网络的直接密度估计。取而代之的是，他们使用网络的输出作为特征来拟合实际执行最终密度估计的岭回归器。我们的型号不同。首先，网络架构不一致。其次，我们不需要整合两个损失或使用额外的回归变量：对象密度图是我们网络的直接输出，该网络通过单个回归损失进行训练。

3.深度学习计数

3.1计数模型

让我们先来规范我们的符号和计数对象的方法。在这项工作中，在这项工作中，我们将计数问题建模为目标密度估计问题之一[6]。

我们的解决方案需要一组带注释的图像，其中所有对象都用点标记。在这种情况下，对于图像i，真值密度图Di被定义为以每个点注释为中心的高斯函数之和。

其中，Ai是图像i注释的2d点集，N（p；μ，∑）表示归一化2d高斯函数的估计值，以及平均值μ和各向同性协方差矩阵∑，在p定义的像素位置估计值。有了这个密度图Di，通过将Di中的密度图值积分到整个图像上，可以直接得到总目标数Ni，如下所示:

请注意，所有高斯函数都是求和的，因此即使对象之间有重叠，总的对象计数也会保留下来。

我们的新型ccnn模型。输入的图像块被传送到我们的深层网络，该深层网络估计其对应的密度图。

给定该对象计数模型，我们工作的主要目标是设计深度学习体系结构，该体系结构能够学习将图像块P作为输入并返回对象密度图预测D（P）predD的非线性回归函数R（P）。

其中Ω是CNN模型的参数集。对于图像块P∈Rh×w×cP∈Rh×w×c，h，w和c分别对应于块的高度，宽度和通道数。在密度预测D（P）pred∈Rh′×w′中，h′和w′代表预测图的高度和宽度。因此，给定一个看不见的测试图像，我们的模型会从中密集地提取图像块，并生成其相应的对象密度图，然后将其汇总为整个测试图像的密度图。

3.2 counting cnn

我们在本节中介绍我们的第一个深度学习架构，即counting CNN（CCNN）。如图2所示，下面进行剖析：

该架构由6个卷积层组成。Conv1和Conv2层具有深度为32的7×7大小的滤波器，后面是最大池层，内核大小为2×2。Conv3层有深度为64的5×5的滤波器，后面还有一个最大池层， 2×2的内核。Conv4和Conv5层由1×1滤波器制成，深度分别为1000和400。请注意，我们没有在模型中集成任何完全连接的层。有了这些Conv4和Conv5层，我们提出了一个完全卷积的体系结构[22]。所有先前的层之后都是整流线性单位（ReLU）。最后，Conv6是另一个深度为1的1×1滤波器。Conv6负责返回输入色P的密度图估计D（P）pred。

就像我们在等式3中指定的一样。我们希望我们的深度网络从图像块外观学习到对象密度图的非线性映射关系。因此，我们的CCNN必须经过训练才能解决这种回归问题。为此，我们将以下欧几里得回归损失连接到Conv6层，

其中N对应于训练批次中的图像块数量，D（Pn）gt代表相关训练块Pn的真值密度。回想一下，Ω对网络参数进行编码。我们已经使用出色的Caffe [23]框架实现了网络设计，并且利用了流行的随机梯度下降算法来拟合模型的参数。（？？？）

我们如何实现预测阶段？给定测试图像，我们首先密集提取图像块。如图2所示，我们给CCNN提供了缩放到72×72像素的固定大小的图像块。这些输入面片通过我们的CCNN模型，该模型为每个面片生成密度图估计。请注意，由于有两个最大池化层，输出对象密度图估计的大小是输入图像块大小的1/4，即18×18像素。因此，所有预测的对象密度图DpredP = R（P |Ω）被重新缩放以适合原始输入块大小。请注意，此缩放后生成的密度图D ^ Ppred，该密度图的关联计数不一定与缩放前的原始计数匹配。因此，此新的调整大小后的密度图必须按以下归一化，

预测阶段的最后一步是组装所有块的预测密度图。为了生成最终的物体密度图估计DIt，对于给定的测试图像It，我们简单地将针对所有提取的面片获得的所有预测汇总成测试图像大小的唯一密度图(见图1)。注意，由于块的密集提取，预测将重叠，因此最终密度图的每个位置都必须通过在其中投射预测的块的数量进行标准化。

就像我们之前提到的，我们并不是第一个提出用于对象计数的深度学习模型的人。张等。 [7]介绍了新颖的人群CNN架构。通过对CCNN和CNN的详细比较，我们可以发现以下差异。首先，网络设计不同。例如，在CCNN中，我们使用完全卷积的1×1层Conv4，Conv5和Conv6，而不是使用完全连接的层。（标记为：1，与下面的2说法不一致）这加快了前向传播的训练速度[22]。其次，他们的学习策略更加复杂。人群CNN模型需要合并两个不同的损失函数（一个用于密度图，一个用于块总数）。在优化过程中，它们执行迭代切换过程，以一种或另一种损失替代地进行优化。相比之下，我们的CCNN仅使用一种损失。第三，我们的模型更加紧凑。对于人群计数的问题，Zhang等人[7]没有使用人群CNN网络的直接估算来获得最终物体密度估算。相反，他们将结果报告给具有Crowd CNN网络输出特征的岭回归器。相反，我们不需要任何额外的回归函数，我们以端到端的方式学习了我们的新型CCNN，可以直接预测对象密度图。最后，我们的实验（见第4.2节）显示，CCNN在UCSD数据集的四个子集中的三个子集中改善了人群CNN的结果[4]。

3.3 Hydra CNN

在通过回归模型进行计数的典型管道中，例如，使用场景的带注释的透视图对输入要素进行几何校正，这些结果对于报告准确的结果至关重要。这种现象已经在几篇著作中进行了描述，并报告了最新的结果（例如[5、6、7、8]）。从技术上讲，图像显示的透视失真会导致从同一对象中提取但在不同场景深度处的特征的值存在巨大差异。结果，使用单个回归函数的模型会预期到错误的结果。

Hydra CNN.该网络使用输入块的金字塔（将它们裁剪并缩放为72×72的大小）。金字塔的每个层代表不同的比例，供给Hydra的特定头部。所有头输出连接在一起，并传递到形成Hydra的身体的完全连接的层.。

使用Hydra CNN模型，我们想解决这个问题。也就是说，Hydra CNN必须是可感知比例的体系结构，不允许使用场景的任何先前几何校正。我们的体系结构应该能够学习非线性回归映射，能够同时集成来自多个尺度的信息，以便进行精确的对象密度图估计。这方面带来了一个基本的好处：hydra cnn可以在场景和数据集中工作，这些场景和数据集不仅考虑单个校准场景。例如，一个单一的hydra-cnn模型应该能够准确地预测各种看不见场景的对象数量，展示不同的视角，并且能够很好地推广到现实世界的场景。

我们用图3所示的思想来解决这个问题。我们的Hydra CNN有几个头部和一个身体，让人想起了古希腊蛇形神话中被称为九头蛇的蛇形水怪。每个头负责从输入的图像块金字塔中学习特定比例的图像Si。因此，在学习过程中，我们用特定比例的图像块为每个头部喂食。我们必须将头部的输出理解为一组以不同比例描述的图像特征。然后，将所有这些特征连接起来以馈入由完全连接的层组成的主体（标记为：2）。注意，头部不一定局限于相同的结构，因此它们的特征可能具有不同的尺寸，因此在身体中使用完全卷积层可能不合适（为什么不合适）。因此，我们使用完全连接层，以便为网络提供对不同比例的所有头部特征的完全访问。本质上，身体部分学习合并了头部提供的多尺度信息的高维表示，并负责执行最终的对象密度图估计。

从技术上讲，如图3所示，对于Hydra CNN的每个头部，我们建议使用CCNN模型（CCNN_s0，...，CCNN_sn）。注意，我们只是在每个CCNN模型的头部中排除了其最终的Conv6层。然后，将不同头部的输出连接起来并传递到身体，在这里我们使用两个完全连接的层，每个层有512个神经元。这些是图3中的fc6和fc7层，后面是relu和dropout层。我们用完全连接的fc8层来结束架构，它有324个神经元，其输出是对象密度图。为了训练这个hydra-cnn模型，我们使用等式（4）中定义的相同损失函数。再次使用caffe[23]库，然后使用随机梯度下降算法进行优化。最后，给出一个测试图像，我们按照ccnn模型描述的相同步骤生成最终的目标密度图估计。

Hydra CNN的网络设计灵感来自Li和Yu [24]的视觉显着性估计工作。在[24]中，他们提出了一种不同的网络体系结构，但使用了多重输入策略，该策略结合了整个输入图像的不同视图的特征，以便返回可视显着图。在我们的Hydra CNN模型中，我们采用了这一想法，以使用多尺度金字塔图像集来为我们的网络提供数据。

4 实验

我们使用三个具有挑战性的基准评估了我们的解决方案。对于人群计数问题，已经提出了两种：UCSD行人[4]和UCF_CC_50 [9]数据集。第三个是TRANCOS数据集[10]，该数据集用于交通拥堵场景中的车辆计数

4.1 TRANCOS数据集

实验设置。TRANCOS是一个公开可用的数据集，它提供了从真实视频监控摄像机获得的1244幅不同交通场景的图像，共有46796辆带注释的车辆。这些对象是用点手工标注的。它还为每个图像提供了一个感兴趣区域，定义了评估考虑的区域。该数据库提供了来自非常不同场景的图像，这些图像尚未设置参数。此外，摄像机可以在同一个场景中移动，并且不提供透视地图。

我们严格遵循[10]中提出的实验设置，仅使用训练和验证集来学习我们的模型。在每个训练图像中，我们随机提取800个115×115像素的色块。我们还通过翻转每个补丁来执行数据增强策略，最后每个训练图像总共有1600个块。然后将这些块被调整为72×72，以喂给我们的网络。我们使用[10]中提供的代码生成真值物体密度图，该图将高斯核（协方差矩阵为Σ=15⋅112×2Σ=15⋅112×2）放置在每个被注释物体的中心。

对于CCNN模型，我们执行交叉验证来调整高斯噪声的标准偏差值，这对于初始化深层网络的每一层的权重是必要的。泽维尔初始化方法[25]曾经被使用过，但是有了它，我们的CCNN模型不能在我们的实验中收敛。

为了训练Hydra CNN，我们遵循与CCNN模型中相同块的提取程序（这是个什么程序？）。唯一的区别是，从每个块中，我们构建其对应的具有不同比例的金字塔，即Hydra CNN的头数。因此，金字塔的第一级包含原始块。对于其余级别，我们构建原始块大小的1 \ slashs的居中和缩放部分。例如，在具有两个头的Hydra CNN的情况下，金字塔的第一级对应于原始输入色块，第二级包含大小为原始尺寸50％的裁切物。当使用三个头时，金字塔的第二层和第三层分别包含原始大小的66％和33％的裁剪物。

为了初始化Hydra CNN模型的头部，我们使用交叉验证CCNN所发现的相同参数。然后，我们执行交叉验证以调整层Fc6和Fc7 的标准偏差。

该测试通过以10个像素的步幅密集扫描输入图像，并按照第3.2节所述装配所有的块来执行。

TRANCOS基准测试附带一个评估指标：网格平均平均绝对误差（GAME）[10]。该GAME的计算方式如下：

其中N是图像总数，DlIn对应于图像n和区域l的估计物体密度图计数，而DIngtl是对应的地面真实密度图。对于特定级别L，GAME（L）使用4L4L非重叠区域的网格细分图像，并且将误差计算为这些子区域中每个子区域中的平均绝对误差之和。该度量提供了误差的空间度量。请注意，GAME（o）等效于平均绝对误差（MAE）度量。（什么意思）

当对象数量增加时，在TRANCOS数据集中比较CCNN和Hydra CNN

车辆计数结果。表1显示了我们的模型与[10]中报告的最新方法[5，6]的详细比较。

首先，请注意我们所有的模型如何胜过最新技术。 CCNN的更简单的体系结构已经改进了先前报道的模型的结果[5，6]。鉴于此数据集的图像所呈现的视角和场景多种多样，Hydra CNN应该能够在TRANCOS中报告最佳结果。表1显示，对于GAME（0），只在2个尺度的Hydra CNN改善了CCNN的结果，而对于GAME（1）至GAME（3），性能非常相似。（也就是说，相对于CCNN，Hydra在两种尺度上的性能在Game(0)的表现优于CCNN,而其他的评估标准上性能相似）。如果我们更进一步，训练一个有3个头部的hydra cnn，我们现在能够为这个数据集报告所有GAME评估的最佳结果。请注意，对于更高级别的GAME（该指标更严格），其误差是如何急剧减少的。这表明，Hydra CNN不仅可以预测对象密度图，而且可以在其中定位密度，因此更加精确（这意味着GAME（0123）四个评估标准，GAME3更加精细？？）。如果我们继续增加Hydra CNN的头数，则不能保证性能的提高。相反，我们通过实验观察到，模型饱和为4个头（见表1的最后一行），而复杂度急剧增加。

总体而言，这些结果使我们得出两个结论。首先，可以使用CCNN模型准确有效地估计物体密度图，效果非常好。其次，Hydra CNN的想法是将比例金字塔作为输入，以学习用于预测对象密度图的非线性回归模型，这种想法似乎更为准确，在此基准测试中定义了新颖的技术水平。。

图4显示了使用MAE（GAME（0））对我们的模型进行的其他分析。我们对所有测试图像按包含的带注释的车辆数量进行比较排序。我们将它们分为10个子集，并在此图中绘制了CCNN和Hydra CNN 3s模型的MAE。有趣的是，CCNN报告对象较少的图像子集的误差略低。但是，当更多的车辆出现在现场时，其错误迅速上升。 Hydra CNN模型显然是赢家，报告了沿不同子集的非常稳定的错误。

最后，图5显示了获得的一些定性结果。前三张图像显示了Hydra 3s模型获得良好性能的结果，后两张图像对应于我们获得最大误差的图像。在补充材料中，我们提供了由模型产生的更多定性结果。

TRANCOS数据集中的Hydra模型的定性结果。第一行对应于具有地面真实性的目标图像。第二行显示预测的对象密度图。我们在每个图像上方显示总对象数。

4.2 UCSD Dataset

实验装置。在这里，我们评估人群计数问题中的模型。为此，我们使用了流行的UCSD行人基准[4]。它是来自单个场景的监视摄像机的2000帧视频数据集。图像已在每个行人上标有点。它还包括ROI和场景的透视图。在我们的实验中，当我们的模型使用和不使用此透视图时，我们都会报告结果。在[4]中提出的评估指标是MAE。

我们遵循与[5、6、7、26]中使用的完全相同的实验设置。因此，我们将数据分为四个不同的子集：（1）“最大”：训练帧为600：5：1400；（2）“下规模”：以1205：5：1600帧进行训练；（3）“高档”：以805：5：1100的帧进行训练；（4）“最小”：以640：80：1360帧进行训练。所有超出定义的训练范围的帧都用于测试。

为了训练我们的CCNN模型，对于每个图像，我们收集了800个72×72像素的块，在整个图像上随机提取，并提取了它们对应的地面真实密度图。我们通过翻转每个补丁来执行数据增强。因此，每个图像总共有1600个训练样本。像往常一样，当使用透视图时，按比例缩放2D高斯核的协方差来构建地面真实物体密度图，在其中固定基础Σ=8⋅112×2Σ=8⋅112×2，在[6]中。

为了训练Hydra CNN模型，我们遵循与TRANCOS数据集相同的补丁提取步骤。这次，每个训练图像提取800个72××72像素的随机块。使用以前说明的相同的步骤来构建补丁的缩放版本金字塔。我们按照之前为TRANCOS数据集说明的过程初始化CCNN和Hydra CNN模型。最后，为了进行测试，我们将步幅固定为10个像素，然后按照本节中的描述进行操作。 3.2。

人群计数结果。我们开始分析CCNN模型的性能。表2显示了与所有最新方法的比较。与所有其他竞争方法一样，我们的CCNN经过训练后使用提供的透视图进行训练，可为“高档”子集获得最佳结果。如果我们比较两种深度学习模型（即CCNN与Zhang等人的CNN）的性能。 [7]，我们的模型在4个子集中的3个中获得了更好的性能。

UCSD数据集的CCNN定性结果。第一行显示目标图像及其基本事实。第二行显示预测的对象密度图。我们在每个图像上方显示总对象数。

图6显示了一些定性结果。我们选择了五个最能代表数据集中物体密度差异的框架。最后两帧与我们的CCNN模型产生的最大误差相对应。在补充材料中，我们为视频提供了所有定性结果。

现在，我们在此基准中分析Hydra CNN模型获得的结果。即使此数据集提供了固定场景的图像，并提供了其透视图（其中的对象以相似的比例出现），我们还是决定使用Hydra CNN方法进行此额外的实验，用最先进的模型来评估它的性能。表3显示了带有两个和三个头的Hydra的MAE结果。记住，我们不使用透视图信息。我们可以观察到两件事。第一个是，即使它们没有改进最新技术，这两种体系结构也都具有良好的性能。为了支持该结论，图7显示了地面真实情况，CCNN模型（使用透视图训练）与我们的Hydra具有两个和三个头部的估算之间的比较，该估算不使用透视信息。Hydra CNN模型能够密切跟踪CCNN和GT。我们认为，hydra-cnn的性能并不优于ccnn，因为该数据集具有较小的变异性和较低的透视失真。在这种情况下，添加更多的比例尺似乎并不能提供真正有用的信息。因此，使用Hydra CNN并不能提供明显的优势。

4.3 UCF_CC_50 Dataset

实验装置。 UCF_CC_50数据集[9]包含50张图片，这些图片是从可公开获取的网络图像中收集的。人数在94到4543之间，每张图像平均有1280个人。人们用点注释，并且未提供透视图。这些图像包含非常拥挤的场景，这些场景属于各种事件：音乐会，抗议，体育场，马拉松和朝圣。该数据集提出了一个具有挑战性的问题，尤其是由于减少了训练图像的数量以及所涵盖的场景之间的差异性。我们遵循了[9]中描述的相同实验设置。我们将数据集随机分为5个子集，并执行5倍交叉验证。为了报告结果，使用了MAE和平均标准偏差（MSD）。

为了训练我们的模型，我们缩放图像以使最大尺寸等于800像素。我们遵循Sect 4.1中描述的相同实验设置。现在，我们随机提取1200个150××150像素的图像块及其相应的地面真实性。我们还通过翻转每个样本来扩充训练数据。最后，利用高斯函数生成地面真相密度图的协方差矩阵固定为Σ=15⋅112×2Σ=15⋅112×2。对于CCNN和Hydra CNN模型的初始化，我们遵循已经针对其他数据集描述的交叉验证过程。为了进行测试，我们以10像素的步幅密集扫描图像。

具有两个尺度的Hydra CNN的UCF_CC_50数据集定性结果。第一行对应于真值的目标图像。第二行显示预测的对象密度图。我们在每个图像上方显示总对象数。

人群计数结果。表4显示了我们的模型与最新方法的比较。在此数据集中，我们的Hydra CNN 2s可以提供最佳性能，它可以大大降低MAE。具有3个比例尺的Hydra CNN优于之前发布的5个模型中的3个。 CCNN方法只能改善[6，19]中报告的结果。通过分析结果，我们发现CCNN的性能下降，尤其是在人数最多，视角确实重要的图像中。在图9中，我们包括CCNN模型的一些定性示例，对此可以理解。此问题和提供的结果证实了可识别比例尺的Hydra模型在UCF_CC_50数据集非常拥挤的场景中的优势。

图8显示了我们的带有两个头的Hydra CNN模型获得的一些定性结果。前三列对应的结果表明我们的网络报告了良好的性能，而后两列显示了最大错误。

5.结论

在本文中，我们介绍了两种新颖的深度学习方法来对图像中的对象进行计数。据我们所知，以前只有两种方法探索过类似的想法[7，21]。因此，我们的研究为深度学习中的对象计数问题提供了新颖的见解。

利用我们的第一个架构CCNN模型，我们可以准确，有效地估计物体密度图，让网络学习将图像补丁外观转换为物体密度图的映射。我们能够匹配并提高更复杂的模型的计数准确性，例如[7]中使用了多个损失函数和额外的回归变量与深度模型结合使用。

我们的第二个模型Hydra CNN进一步向前发展，并提供了一个可感知缩放的解决方案，该解决方案旨在学习非线性回归器，以从多个尺度的图像斑块金字塔生成对象密度图。实验验证表明，Hydra不仅可以改善其前身CCNN的结果，而且还可以改善那些建议在不同场景中对物体计数的基准的最新技术，从而显示出非常拥挤的情况，并且没有提供场景的几何信息（例如透视图）。

通过提供我们的软件和经过预先训练的模型1，我们可以使以后的研究毫不费力地重现我们的结果，并为实现这一具有挑战性的任务提供更准确的解决方案，以促进进一步的发展。

脚注：https://github.com/gramuah/ccnn.

致谢：

DGT的项目（引用为SPIP2014-1468和SPIP2015-01809）以及MINECO TEC2013-45183-R的项目为这项工作提供了支持。

补充材料：

419982_1_En_38_MOESM2_ESM.pdf (3.9 mb)（链接:chrome-extension://cdonnmffkdaoajfknoeeecmchibpmkmg/assets/pdf/web/viewer.html?file=https%3A%2F%2Fstatic-content.springer.com%2Fesm%2Fchp%253A10.1007%252F978-3-319-46478-7_38%2FMediaObjects%2F419982_1_En_38_MOESM2_ESM.pdf）

Supplementary material 2 (pdf 3976 KB)