Switching Convolutional Neural Network for Crowd Counting-论文笔记

本文详细介绍了Switching Convolutional Neural Network for Crowd Counting的论文,这是一种新的人群计数模型,利用图像中人群密度的变化提高预测准确性。模型通过切换分类器将场景补丁传递给最佳的CNN回归器,适应不同规模和视角变化。实验结果显示,Switch-CNN在主要人群计数数据集上表现出优越性能。
摘要由CSDN通过智能技术生成

Switching Convolutional Neural Network for Crowd Counting

论文地址:https://openaccess.thecvf.com/content_cvpr_2017/papers/Sam_Switching_Convolutional_Neural_CVPR_2017_paper.pdf

Abstract(摘要)

我们提出了一种新的人群计数模型,该模型将给定的人群场景映射到其密度。人群分析是由无数因素组成的,比如极度拥挤导致的人与人之间的相互遮挡,人与背景元素的外表高度相似,以及摄像机视角的大变异性。目前最先进的方法是通过使用多尺度CNN架构、循环网络和不同接受域的多列CNN特征的后期融合来解决这些因素。我们提出切换卷积神经网络,利用图像中人群密度的变化来提高预测人群数量的准确性和定位。基于训练中建立的CNN的人群计数预测质量,将人群场景中网格上的补丁中继到独立的CNN回归器。独立的CNN回归器被设计成具有不同的接受域,一个转换分类器被训练成将人群场景补丁传递给最好的CNN回归器。我们在所有主要人群计数数据集上进行了广泛的实验,并证明了与当前最先进的方法相比,更好的性能。我们提供了从开关推断的人群场景补丁的多切分空间的可解释表示。可以观察到,该开关根据人群密度将一个图像补丁中继到特定的CNN列。

1. Introduction

人群分析具有重要的地缘政治和公民应用。大规模群众集会在烛光守夜、民主抗议、宗教集会和总统集会中司空见惯。市政机构和规划者依靠人群估计值来规范接入点,并为此类事件制定灾难应急计划。这种分析的关键是人群数量和密度。

原则上,人群计数背后的关键思想是不言而喻的:密度乘以面积。然而,现场的人群并不固定。它们聚集在某些区域,散布在其他区域。上海科技数据集[19]的典型静态人群场景如图1所示。在这些人群场景中,我们可以看到极度拥挤的人群,人和背景元素(例如城市立面)在视觉上的高度相似,这些因素都进一步增加了复杂性。在不同的场景中,不同的摄像机视角会产生不同的透视效果,从而导致人的尺度有很大的变化。
在这里插入图片描述

人群计数作为一种计算机视觉问题,从早期基于HOG的头部检测[6]到CNN regression[18,19,9]预测人群密度的方法发生了巨大变化。基于CNN的回归器在很大程度上优于基于局部特征的弱表示的传统人群计数方法。我们在基于CNN的人群计数体系结构的性能基础上,提出了切换卷积神经网络(Switch-CNN)来映射给定的人群场景到其密度。

Switch-CNN利用图像中人群密度的变化来提高预测人群数量的质量和定位。独立的CNN人群密度回归器是在给定的人群场景中从网格中采样的补丁上训练的。我们选择了独立的CNN回归器,使它们具有不同的接受域和视场。这确保了每个CNN回归器学习到的特征适应于特定的规模。这使得Switch-CNN对在典型人群场景中观察到的人的大范围和视角变化具有鲁棒性。一个特定的CNN回归器被训练在一个人群场景补丁上,如果这个补丁的回归器的性能是最好的。切换分类器与多个CNN回归器交替训练,以正确地将一个patch中继到一个特定的回归器。开关和回归量的联合训练有助于提高开关对差异训练阶段学习的人群场景复杂多切面空间的学习能力。总的来说,在这篇论文中,我们提出:

  • 一个新的通用的CNN架构,Switch-CNN训练端到端来预测人群场景的人群密度。
  • 切换-CNN从人群场景到独立的CNN回归器的人群补丁,以减少计数误差,并利用场景内的密度变化改进密度定位。
  • 我们在所有主要人群统计数据集,包括上海科技数据集[19],UCF CC 50数据集[6]和WorldExpo ’ 10数据集[18]上证明了最先进的性能。

2. Ralated Work

在计算机视觉中,人群计数已经被无数种技术所解决。通过头部检测的人群计数已经被解决[17,16,14],利用运动线索和外观特征来训练检测器。[12]将循环网络框架用于人群场景中的头部检测。他们在LSTM框架中使用Googlenet[13]的深度特征来回归人群场景中头部的边界框。然而,头部检测的人群计数有其局限性,在人群间高度相互遮挡的密集人群中无法实现。

在视频中的人群计数中,[3]使用Tomasi-Kanade等图像特征作为运动聚类框架。[10]利用KLT跟踪器将视频处理成一组轨迹。为了防止轨迹的破碎,他们在时间和空间上调节信号。由于缺乏时间信息,这种跟踪方法不太可能用于单个图像的人群计数。

早期的静态图像人群计数工作,如[6],采用了手工特征的组合,即基于HOG的检测,基于兴趣点的计数和傅里叶分析。这些基于局部特征的弱表示性能优于现代深度表示。在[18]中,cnn被训练回归人群密度图。他们从类似于测试图像的训练数据中检索图像,使用密度和视角信息作为相似性度量。检索到的图像用于对特定目标测试场景的训练网络进行微调,并对密度图进行预测。然而,该模型的适用性受到了每个测试场景所需的微调和火车和测试序列的透视图的限制,这些都不是现成的。[15]训练了一个Alexnet[7]风格的CNN模型来回归人群计数。但是,这种模型在人群分析中的应用受到了限制,因为它不能预测人群的分布。在[9]中,我们使用了一个多尺度CNN架构来处理人群场景中的大尺度变化。他们使用定制的CNN网络,针对每个规模分别进行训练。完全连接的层用于融合从每个CNN训练在一个特定的规模,并回归密度地图。然而,该模型的计数性能对图像金字塔中的级别数量很敏感,这是由跨数据集的性能所表示的。

[2, 19]使用的多列CNN对不同CNN列的特征进行后期融合,对人群场景的密度图进行回归。在[19]中,使用不同接受域的浅CNN列来捕捉人群场景中规模和视角的大变化。[2]使用VGG网络进行迁移学习,VGG网络采用扩张层,并辅之以具有不同接受域和视场的浅层网络。这两种模型都是通过1×1卷积层加权平均融合CNN列的特征图来预测人群的密度图。然而,加权平均技术在本质上是全局的,没有考虑场景内密度的变化。我们以多列CNN的性能为基础,并在我们提出的架构Switch

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值