2019_Context-aware crowd counting

说明

本文是对以下这篇文章的总结及部分翻译。
Liu W, Salzmann M, Fua P. Context-aware crowd counting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5099-5108.

概括

在拥挤的场景中计算人数的最先进方法依赖于深度网络来估计人群密度。他们通常在整个图像或大的图像patch上使用相同的过滤器。只有这样,他们才估计局部规模,以补偿透视失真。这通常是通过训练辅助分类器为预定义的图像patch选择有限的一组选择中的最佳内核大小来实现的。 因此,这些方法不是端到端可训练的,并且在它们可以利用的上下文范围内受到限制。

在本文中,我们介绍了一种端到端的可训练深度架构,该架构结合了使用多个感受野大小获得的特征,并在每个图像位置学习每个此类特征的重要性。换句话说,我们的方法自适应地编码了准确预测人群密度所需的上下文信息的尺度。 这产生了一种优于最先进的人群计数方法的算法,尤其是在透视效果很强的情况下。

一、Introduction

标准卷积是这些基于深度学习的方法的核心。通过对整个图像使用相同的过滤器和池化操作,这些隐式依赖于所有地方相同的接受域。然而,由于透视失真,我们应该改变整个图像的接受场大小。在过去,这可以通过结合从不同分辨率的图像块中提取的密度图或使用不同大小的卷积滤波器获得的特征图来解决。然而,这些方法通过不加选择地融合所有尺度的信息,忽略了尺度在图像中不断变化的事实。虽然在[2,3]中通过训练分类器来预测局部使用的接受域的大小来解决这一问题,但所得到的方法不是端到端可训练的;不能解释快速的尺度变化,因为他们分配一个单一的规模相对较大的斑块;并且只能利用一小部分的接受域来保持网络的可控规模。

在本文中,我们引入了一种深度架构,它可以明确地提取多个接受域大小的特征,并学习每个图像位置上每个特征的重要性,从而考虑潜在的快速尺度变化。换句话说,我们的方法自适应地编码了预测人群密度所需的上下文信息的规模。这与在[原文的参考文献32]中使用上下文信息来解释缩放效应的人群计数方法相反,但只在损失函数中,而不是像我们所做的那样计算真正的多尺度特征。我们将证明它在未经校准的图像上工作得更好。当校准数据可用时,我们还将表明,它可以用来更好地推断合适的局部尺度,并进一步提高性能。

二、方法

如上所述,我们的目标是利用上下文,即经常出现在图像中的大规模一致性。然而,正确地评估经历了透视失真的图像中这种上下文的范围和程度是一项挑战。为了满足这一要求,我们引入了一种新的深度网络结构,该结构将多层次的上下文信息自适应地编码到它产生的特征中。然后,我们展示了如何使用这些尺度感知特征回归到最终的密度图,无论是在相机未校准时还是在校准时。

Scale-Aware Contextual Features:
在这里插入图片描述
使用我们的尺度感知特征的最简单的方法是将所有这些功能连接到最初的VGG特征fv。然而,这并不能解释不同图像的比例不同这一事实。为了对其进行建模,我们建议学习预测权重图,该权重图设置了每个尺度感知特征在每个空间位置上的相对影响。为此,我们首先将对比特性定义为

使用我们的尺度感知特征的最简单方法是将它们全部连接到原始 VGG 特征 fv。 然而,这并不能解释整个图像的尺度不同的事实。 为了对此进行建模,我们建议学习预测权重图,这些图设置了每个空间位置的每个尺度感知特征的相对影响。为此,我们首先将对比特征定义为
在这里插入图片描述
它们捕捉特定位置的特征与附近特征之间的差异,这通常是表示显著性的重要视觉线索。请注意,对于人类而言,显著性很重要。

Geometry Guided Context Learning:

由于透视失真,适用于每个区域的上下文范围在图像平面上是不同的。因此,场景几何与情境信息密切相关,可以用来引导网络更好地适应它所需要的场景情境。

因此,我们将前面的方法扩展到利用可用的几何信息。为此,我们用一个透视图Mi来表示图像Ii的场景几何,它对图像平面上每米的像素数进行编码。注意,这个透视图与输入图像具有相同的空间分辨率。因此,我们使用它作为截断VGG-16网络的输入。换句话说,方程1的基本特征被形式的特征所取代
在这里插入图片描述
其中F0 vgg是一个改进的vgg -16网络,只有一个输入通道。为了初始化该通道对应的权值,我们将原始三个RGB通道的权值平均。注意,我们还规范化了透视图Mi,使其位于与RGB图像相同的范围内。虽然这种初始化在最终的计数精度上没有带来任何明显的差异,但它使网络收敛得更快。

为了进一步将几何信息传播到我们的网络的后期,我们利用上面描述的改进的VGG特征,它本身包含几何信息,作为一个附加的输入到Eq. 4的辅助网络。具体来说,每个比例尺的权重图将被计算为
在这里插入图片描述
这些权重映射就像Eq. 5中那样使用。图3描述了相应的体系结构。
在这里插入图片描述

参考文献

[1]Liu W, Salzmann M, Fua P. Context-aware crowd counting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5099-5108.
[2] Sam D B, Surya S, Babu R V. Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 4031-4039.
[3] Sam D B, Sajjan N N, Babu R V, et al. Divide and grow: Capturing huge diversity in crowd images with incrementally growing cnn[C]//IEEE conference on computer vision and pattern recognition. 2018: 3618-3626.

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值