人群计数----Distribution Matching for Crowd Counting

摘要

在人群计数中,每个训练图像包含多个人物,每个人都用一个点来注释。现有的人群计数方法需要使用高斯平滑每个注释点,或者估计给定注释点的每个像素的可能性。在本文中,我们证明了对注释强加高斯分布会损害泛化性能。相反,我们建议使用分布匹配进行人群计数。在DM-Count中,我们使用最优传输来度量归一化预测密度图和归一化地面真实密度图之间的相似性。为了稳定最优传输的计算,我们在模型中加入了总变化损失。我们证明了DM-Count的泛化误差上界比高斯平滑法的泛化误差上界更严格。就平均绝对误差而言,DM-Count在UCF-QNRF和NWPU两个大规模计数数据集上的表现远远优于以前的最先进方法,并在ShanghaiTech和UCF-CC50数据集上取得了最先进的结果。DM-Count的误差比目前公布的最先进的结果减少了约16%。

1 介绍

基于图像的人群计数是一个重要的研究问题,在包括新闻和监控在内的许多领域都有着广泛的应用。当前最先进的方法[54,8,25,55,61,59,17,48,21,23,36]将人群计数视为密度图估计问题,其中深度神经网络首先为给定的输入图像生成2D人群密度图,然后通过对密度图的所有空间位置的密度值求和来估计人群的总大小。对于大量人群的图像,这种密度图估计方法已经被证明比检测然后计数的方法[22,19,62,12]更稳健,因为前者对遮挡不太敏感,并且它不需要在早期阶段进行二值化决策。

开发密度图估计方法的关键步骤是训练深度神经网络,该网络从输入图像映射到相应的注释密度图。在所有现有的人群计数数据集[15,60,14,51]中,每个训练图像的标注密度图是一个稀疏的二进制掩码,其中每个人的头部或前额都标有一个点。由于描绘空间范围需要费力的工作,特别是当有太多的遮挡模糊时,所以没有提供每个人的空间范围。给定带有点标注的训练图像,训练密度图估计网络相当于优化网络的参数,以最小化测量预测密度图和点标注图之间差异的可微损失函数。值得注意的是,前者是一个稠密的实值矩阵,而后者是一个稀疏的二值矩阵。由于点的稀疏性,基于标注密度图和预测密度图之间的像素差异定义的函数很难训练,因为稀疏二进制矩阵中0和1之间的重构损失严重不平衡。缓解这一问题的一种方法是将每个标注点转换成高斯斑点,从而使真值更加平衡,从而使网络更容易训练。几乎所有现有的人群密度图估计方法都遵循了第34届神经信息处理系统会议(NeurIPS 2020),温哥华,加拿大。不幸的是,由此产生的网络的性能高度依赖于这种“伪地面真理”的质量,但在拥挤场景的透视图像中,考虑到人的大小和形状的巨大变化,为标注点设置合理的宽度将其变为高斯斑点并不容易。

最近,马等人[31]提出了一种贝叶斯损失来衡量预测密度图和标注密度图之间的差异。该方法将二值地面真值注记图转换成N个“平滑地面真值”密度图,其中N是计数。给定像素的位置,平滑的地面真实密度图的每个像素值是相应注释点的后验概率。根据经验,这种方法已被证明优于其他上述方法[60,38,20,33,35,4]。然而,这种损失函数有两个主要问题。首先,它还需要一个高斯核来构造每个注释点的似然函数,这涉及到设置核宽度。其次,这种损失对应于一个具有无穷多个解的欠定方程组。对于许多与地面真实密度图不相似的密度图,损失可以是0。因此,使用这种损失进行训练会导致预测密度图与地面真实密度图非常不同。
在本文中,我们通过以下贡献解决了现有方法中的缺点。

  • 我们从理论和经验上表明,将高斯分布强加给注释会损害人群计数网络的泛化性能。
  • 我们提出DM-Count,这是一种针对人群计数进行分布匹配的方法。与以前的工作不同,DM-Count不需要任何高斯平滑地面真值标注。相反,我们使用最佳传输(OT)来测量归一化预测密度图和归一化地面真实密度图之间的相似性。为了稳定最优传输的计算,我们进一步增加了总变化损失。
  • 在我们的方法中,我们给出了计数损失、最优传输损失、总变化损失和总体损失的泛化误差上界。所有的界限都比高斯平滑法的界限严格。
  • 从经验来看,我们的方法在四个具有挑战性的人群计数数据集:UCF-QNRF, NWPU, ShanghaiTech, and UCF-CC50大幅提高了最先进的水平。值得注意的是,我们的方法将NWPU数据集上公布的最先进的MAE减少了大约16%。

2 以前的工作

2.1人群计数方法

人群计数方法可以分为三类:检测然后计数、直接计数回归和密度图估计。早期的方法检测图像中的人、头或上身。然而,对于密集的人群来说,精确的检测是困难的。此外,它还需要边界框标注,由于遮挡严重,这是一个费力且模糊的过程。后来的方法避免了检测问题,直接从一个特征向量学习回归计数。但是它们的结果不太容易解释,而且点注释图没有得到充分利用。最近的工作是基于密度图估计的,密度图估计已经被证明比检测然后计数和计数回归方法更稳健。

密度图估计方法通常基于高斯平滑密度图和预测密度图之间的像素差异来定义训练损失。使用自适应内核宽度,而不是使用单个内核宽度来平滑点标注。内核宽度是根据到标注点的最近邻居的距离来选择的。具体来说,[15]在不同的密度水平上生成了多个平滑的地面真实密度图。最终的损失结合了来自多个密度水平的重建误差。但是,这些方法假设人群是均匀分布的;实际上人群分布很不规则。贝叶斯损失方法[31]使用高斯构造每个注释点的似然函数。然而,它可能无法预测正确的密度,因为损失是不确定的。详细分析见第4.2节。

2.1 最佳传输

我们提出了一个新的基于最优传输的损失函数[46]。为了更好地理解所提出的方法,我们在这一节简要回顾了蒙格-坎塔罗维奇OT公式。

最优运输是指将一种概率分布转化为另一种概率分布的最优成本。设X = { Xi | Xi∈Rd } n I = 1,Y = { yj | yj∈Rd } n j = 1为d维向量空间上的两组点。设u和ν分别是定义在X和Y上的两个概率度量;u,ν ∈ Rn +和lT n = lT nν= 1(ln是所有1的n维向量)。设C:X×Y 7→R+为从X中一点移动到Y中一点的成本函数,C为两组点对应的n×n成本矩阵:Cij= c(xi,yj)。设T是把概率质量从X输运到Y的所有可能途径的集合:T = {γ∈Rn×n+:γ1 =,γTl= ν}。蒙格-坎特罗维奇(Monge-Kantorovich)在u和ν之间的最优运输(OT)成本定义为:在这里插入图片描述
凭直觉,如果概率分布µ被视为一个单位的“分布”堆在X以及概率分布ν一个单位的“分布”堆在Y, (什么意思????)OT成本是将一堆变成另一堆的最小“成本”。OT成本是量化两个概率分布差异的主要度量,也考虑了“分布”位置之间的距离。OT成本也可以通过双重公式计算:
在这里插入图片描述

3 DM-Count:人群计数的分布匹配

我们把人群计数作为一个分布匹配问题来考虑。在本节中,我们提出了DM-Count:人群计数的分布匹配。人群计数网络输入一幅图像并输出一幅密度值图。最终的计数估计可以通过对预测的密度图求和得到。DM-Count与不同的网络架构无关。在我们的实验中,我们使用了与贝叶斯损失论文[31]中相同的网络。不同于以往的密度图估计方法需要使用高斯对地真标注进行平滑处理,DM-Count不需要任何高斯对地真标注进行预处理。

设z∈Rn+表示点标注的矢量化二值图,z^∈Rn+表示神经网络返回的矢量化预测密度图。通过将z和z’视为非标准化的密度函数,我们用三个项来表示DM-Count中的损失函数:计数损失、OT损失和总变化(TV)损失。第一项测量总量之间的差异,而最后两项测量归一化密度函数分布之间的差异。

计数损失

设||.||1表示向量的L1范数,因此||z|| ||z^||分别是地面真值和预测计数。人群计数的目标是使 ||z’||1尽可能接近||z||1,计数损失定义为两者的绝对差值:
在这里插入图片描述
最佳传输损失
z和z^都是不规范的密度函数,但是我们可以通过将它们除以各自的总量来将它们转化为概率密度函数。除了OT,Kulback-Leibler散度和Jensen-Shannon散度也可以度量两个概率密度函数之间的相似性。然而,如果源分布与目标分布不重叠,这些测量不能提供有效的梯度来训练网络[32]。因此,我们建议在这项工作中使用OT。我们对OT损失的定义如下:
在这里插入图片描述
其中α和β是问题(2)的解。我们使用二次运输成本,即c(z(i),z^(j))= ||z(i)z(j)||2 2,其中z(i)和z^(j)分别是位置i和j的2D坐标。为了避免被零除的误差,我们在分母上增加了机器精度。因为z中的条目是非负的,所以对于z’的梯度等式如下在这里插入图片描述
这个梯度可以反向传播来学习密度估计网络的参数。

总变化损失
在每次训练迭代中,我们使用Sinkhorn算法[34]来逼近α∗和β∗。时间复杂度为O(n2logn/e2) [9],其中e是期望的最优性差距,即返回的目标和最优目标之间的差异的上限。当用Sinkhorn算法优化时,目标在开始时急剧下降,但在随后的迭代中缓慢收敛到最优目标。实际上,我们设置了最大迭代次数,Sinkhorn算法只返回一个近似解。结果,当我们用Sinkhorn算法优化OT损失时,预测密度图最终接近地面真实密度图,但不完全相同。OT损失将很好地近似人群的密集区域,但是对于人群的低密度区域,近似性可能较差。为了解决这个问题,我们另外使用总变异损失,定义为:
在这里插入图片描述
TV损失也会增加训练程序的稳定性。使用Sinkhorn算法优化运行时间损失是一个最小-最大鞍点优化过程,类似于GAN最优化[13]。GAN训练的稳定性可以通过增加重建损失来提高,如Pix2Pix GAN [16]所示。为此,TV损失类似于重建损失,并且还增加了训练过程的稳定性。TV损耗相对于预测密度图z的梯度为:
在这里插入图片描述
其中v = z/||z|| 1-z/||z|| 1,sign()是向量每个元素的Sign函数。

总体目标
总损失函数是计数损失、OT损失和TV损失的组合:在这里插入图片描述
其中λ1和λ2是用于OT和TV损失的可调超参数。为了确保TV损失与计数损失具有相同的比例,我们将该损失项乘以总计数。给定K个训练图像{ Ik } K k =和相应的点标注图{ ZK } K = 1,我们将通过最小化来学习用于密度图估计的深度神经网络f:L(f)= 1k PK K = 1 '(ZK,f(Ik))。

5 实验

在这一节中,我们描述了在小数据集和基准人群计数数据集上的实验。在补充材料中可以找到更详细的数据集描述、实现细节和实验设置。

5.1 小数据集上的结果

为了理解不同方法的经验行为,我们考虑一个小问题,其中的任务是使用 Pixel-wise loss、贝叶斯损失和DM-Count将源密度图z^移动到目标密度图z。源密度图z’从0到0.01之间的均匀分布初始化,目标密度图显示在图1最左边的图中。这三种方法都从同一个源密度图开始。图1显示了收敛时的最终z值。像素级的损失会产生一个模糊的密度图和一个更高的计数。在计数误差、峰值信噪比(PSNR)和图像结构相似性(SSIM) [52]方面,贝叶斯损失比像素损失表现得更好,但是得到的密度图与目标有很大不同,在许多没有注释点的位置有很高的值。这证实了我们的分析,即贝叶斯损失对应于欠定系统,因此输出密度图可能与目标密度图非常不同。相比之下,DM-count能够产生更准确的计数和密度图。在PSNR和SSIM,DM-Count的表现都远远好于贝叶斯损失。

图1:不同方法对玩具数据的比较像素损失产生一个模糊的密度图与更高的计数误差。贝叶斯损失产生了与地面真实不一样的密度图,在许多没有标注的位置有很高的值。与其他两种方法相比,DM-Count能够产生更准确的人群计数和定位。

5.2 基准数据集上的结果

我们在四个具有挑战性的人群计数数据集上进行实验:UCF-QNRF [15], NWPU [51],
ShanghaiTech [60], and UCF-CC-50 [14]。值得注意的是,NWPU数据集是当今公开可用的最大规模和最具挑战性的人群计数数据集。测试图像的地面真实计数没有发布,测试集的结果必须通过提交给https://www.crowdbenchmark.com/nwpucrowd.html.的评估服务器来获得。根据以前的工作[35,15,4,14,60],我们使用以下指标:平均绝对误差(MAE)、均方根误差(RMSE)和平均归一化绝对误差(NAE)作为评估指标。

对于所有三个指标,越小越好。为了公平比较,我们使用与贝叶斯损失论文[31]中相同的网络。在所有实验中,我们将λ1= 0.1,λ2= 0.01,以及Sinkhorn熵正则化参数设置为10。Sinkhorn迭代次数设置为100。平均每个图像的OT计算时间为25毫秒。

定量结果
表1和表2比较了DM-Count与各种方法的性能。在所有的实验中,除了在NWPU的MSE下的CAN方法外,DM-Count方法的性能都优于其他方法(两者具有可比性)。虽然我们在所有实验中对DMCount使用了相同的一组超参数,但DM-Count仍然获得了最好的性能,说明DM-Count的性能在不同数据集上是稳定的。

在与DM-Count相同的网络结构和训练过程中,DM-Count在所有实验中都优于像素损失和贝叶斯损失。这证明了预测损失的有效性。在表1中,像素损失比DM-Count严格得多。此外,即使没有使用[4,47]中的多尺度架构,或[2,50]中的更深层次网络,DM-Count仍然在所有四个数据集上实现了最先进的性能。这说明了在人群计数中具有良好的损失函数的重要性。

在大规模和具有挑战性的数据集UCF-QNRF和NWPU上,DM-Count明显优于最先进的方法。具体来说,在UCF-QNRF数据集上,DM-Count将贝叶斯损失的平均误差和均方误差分别从88.7降低到85.6和从154.8降低到148.3。值得注意的是,在NWPU测试集(通过提交给评估服务器获得)上,DM-Count将MAE和NAE大幅降低,MAE从105.4降低到88.4,NAE从0.203降低到0.169。

定量结果
图2显示了像素损失、贝叶斯损失和DM-Count的预测密度图。这张图表明:1)DM-Count产生的计数数更接近地面真实数,2)DM-Count产生的密度图比像素和贝叶斯损失更清晰。在图2中,DM-Count产生的PSNRs和ssim比像素级和贝叶斯损失高得多。在整个UCF-QNRF测试集上,像素损耗的平均PSNR和SSIM分别为34.79和0.43,贝叶斯损耗的平均PSNR和SSIM分别为34.55和0.42,DM-Count的平均PSNR和SSIM分别为40.65和0.55。因为像素级损失使用高斯平滑的地面真相,它产生的密度图比真实的地面真相模糊。这从经验上验证了我们对高斯平滑方法泛化界的理论分析。如图所示,像素损失和贝叶斯损失无法将人定位在人口密集的区域。相比之下,DM-Count可以很好地将人定位在稠密和稀疏的区域。图3显示了由DM-Count预测的密度图。预测的密度图与稀疏和密集区域的人群密度都很好地对应,证明了DM-Count在空间密度估计中的有效性。

6 结论

在本文中,我们证明了在测试真实的地面真值数据时,使用高斯核平滑地面真值点标注会损害模型的泛化界。相反,我们将人群统计视为一个分布匹配问题,并提出了基于最优交通的DM-Count算法来解决这个问题。与以前的工作不同,DM-Count不需要高斯核来平滑注释点。与高斯平滑方法相比,DM-Count方法的泛化误差范围更紧凑。在四个人群计数基准上的广泛实验表明,dm计数显著优于以前的最先进的方法。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值