论文Depth Information Guided Crowd Counting for Complex Crowd Scenes

最新推荐文章于 2024-04-02 14:39:59 发布

Selieyo

最新推荐文章于 2024-04-02 14:39:59 发布

阅读量1k

点赞数 1

分类专栏： crowd count 文章标签： crowd count

crowd count 专栏收录该内容

14 篇文章 5 订阅

订阅专栏

Depth Information Guided Crowd Counting for Complex Crowd Scenes

摘要

出于城市安全的考虑，监控和分析人群拥挤事件是非常重要的。在一张拥塞场景的景深图像（EDOF: extended depth of field）上，人群的分布是很不平衡的。离镜头远的人看起来很小，并且互相之间重合严重，同时离镜头近的人看起来比较大。在这种情况下，使用一种技术很难准确估计人数。这篇文章提出了一种方法，深度信息导向性人群计数（DigCrowd）来处理这种图像。这个方法首先利用深度信息将一张图片的场景分割为远景区域和近景区域；然后DigCrowd将远景区域映射到拥塞密度图，并且使用一种检测方法计算近景区域的人数。除此之外，引入了一个新的拥塞数据集，该数据集包含1000张图片。实验结果可以证明DigCrowd方法的有效性。

介绍

随着人口增长，智能人群分析系统越来越重要，同时这块领域面临着很多挑战，比如人群不一致分布、光照不统一，外观规模等场景不一致以及透视扭曲等问题。提出几种方法，比如论文Single-image crowd counting via multi-column convolutional neural network提出的MCNN方法，作者指出这种方法在复杂的拥塞场景中不具有鲁棒性。文中提出的算法概览如下图：

首先，depth map算法得到图像的深度信息，从而将复杂的拥塞场景分为远景和近景区域；图像分割基于yolo框架方法（参看论文You Only Look Once: Unified, Real-Time Object Detection），每个场景不是被定量地划分。这里指出yolo方法的失败之处：一是人群不均匀的分布以及人不均匀的像素分布（这里翻译可能有点问题）；另一则是人群聚集现象的存在和严重漏检测的筛查结果。这些原因导致比较差的结果，从而针对远景区域使用密度图方法。基于混合方法，结果很接近真实场景。

文章贡献主要分为下列几个方面：

提出一种针对视频流的基于深度神经网络的拥塞密度检测混合方法
提出基于图像深度信息的图像分割方法，同时使用空间上下文方法消除重复检测
提供了一个复杂拥塞场景的航站数据集

近期工作（略）

人群计数方法分为以下几类：基于检测的方法、基于回归的方法、基于密度估计以及基于CNN的方法。

提出的方法

提出新的混合方法解决这种拥塞场景，详细如下：

使用一个新的分割方法，首先获得输入图像的深度信息，然后利用深度信息的局部相似性将图像分为远景区域和近景区域。
针对近景区域，使用CNN检测人群，同时使用空间限制解决图像分割边缘的重复性检测。
YOLO检测方法无法处理远景区域，我们使用密度图方法，该方法可以计算小的远的目标。

图像分割
近景区域检测
空间限制
远景区域密度图估计
系统实现结果

图像分割

首先使用一个多尺度深度网络预测一张图片的密度图（参看论文Depth map prediction from a single image using a multi-scale deep network）；其次基于颜色相似性和接近度产生近景区域和远景区域，这一步在五维空间[labxy]种完成，[lab]是颜色空间的像素颜色向量，x、y指像素位置。当在颜色空间种两种颜色之间的最大可能距离受限，x、y平面上的空间距离取决于图像尺寸。下图是基于深度信息的分割：

上图中：（a）输入图像；（b）深度信息；（c）分割线；（d）远景区域；（e）近景区域；

近景区域检测

首先产生图像的特诊图：使用传统的CNN预训练权重；采用YOLO架构作为检测模块。在卷积层顶层，YOLO采用全连接层回归特征表示，标识图像分为S*S个划分，每个划分有B边界预测框，代表了5个位置参数，包括x、y、w、h和置信度c。在本文框架中设置S=7，测试时将条件性类概率和单个预测框置信度预测相乘，式子如下：