人群计数--Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

Single-Image Crowd Counting via Multi-Column Convolutional Neural Network
CVPR2016
https://github.com/svishwa/crowdcount-mcnn
https://github.com/leeyeehoo/Reduplication-of-Single-Image-Crowd-Counting-via-MCNN-on-UCF-Dataset

对图像和视频中的人数进行精确估计在公共安全中存在着实际需求。2015年上海发生的踩踏事件很直接的说明了实时人群计数的重要性。
针对该问题,首先回顾了一下传统算法的主要发展历程。最后说了一下使用CNN解决这个问题的文献。

针对基于单张图像人群计数的问题,主要面临如下三个挑战:
1)前景分割对于大多数人群计数算法是必不可少的步骤,但是前景分割本身就是一个很难的问题,目前还没有有效的解决方法。所以我们的计数算法必须不需要前景分割
2)实际图像中人群密度和分布的明显变化及图像中严重的遮挡 导致传统基于检测的算法不能很好的对这些图像进行计数
3)我们需要将图像中不同尺度的特征综合利用

本文的贡献有如下三点:
1)使用了一个 multi-column 架构 对用不同感受野尺寸,可以处理大的 variation
2)MCNN 采用全卷积网络,输入可以是任意尺寸
3)我们建了一个新的数据库 Shanghaitech,包括 Part A and Part B

这里写图片描述

2 Multi-column CNN for Crowd Counting
2.1. Density map based crowd counting
使用CNN对输入图像进行人数统计有两种策略:1)输入图像,输出人数估计 the estimated head count,2)输出一个人群密度估计图,然后通过积分得到人数。这里我们选择第二个策略,原因如下:
1)密度图保留更多的信息,相对于一个数值,密度图给出了人群在图像中的空间分布信息,可以进行局部区域的分析。
2)学习密度图的CNN中的滤波器能够更好的适应多尺寸的人头。

2.2. Density map via geometry-adaptive kernels
这里首先来介绍怎么从有人头标记的图像得到人群密度图。
如果一个像素 x 属于一个人头,那么我们使用一个 delta function 来表示,图像中N个人头数可以用 N个 delta function 求和函数 H(x) 表示。为了将 H(x) 转变为 连续的密度函数,我们使用一个高斯核 G 和 H(x) 进行卷积F(x) = H(x) ∗ G σ (x),这么做有个前提假设就是每个 x 都是独立的,但实际不是如此。
to accurately estimate the crowd density F, we need to take into account the distortion caused by the homography between the ground plane and the image plane

这里我们主要通过设计高斯核中合适的 方差来解决这个问题。
we should determine the spread parameter σ based on the size of the head for each person within the image
这里写图片描述

图像密度图实例
这里写图片描述

2.3. Multi-column CNN for density map estimation
针对图像中人头尺寸的多样性,我们设计了不同尺寸的滤波器来提取不同尺度的特征信息
这里写图片描述

损失函数定义如下:
这里写图片描述

各个数据库的比较
这里写图片描述

估计的密度图和真值密度图对比:
这里写图片描述

Comparing performances of different methods on Shanghaitech dataset
这里写图片描述

UCF CC 50 dataset
这里写图片描述

UCSD dataset
这里写图片描述

the WorldExpo’10 crowd counting dataset
这里写图片描述

boosting-crowd-counting-via-multifaceted-attention是一种通过多方面注意力提升人群计数的方法。该方法利用了多个方面的特征来准确估计人群数量。 在传统的人群计数方法中,往往只关注人群的整体特征,而忽略了不同区域的细节。然而,不同区域之间的人群密度可能存在差异,因此细致地分析这些区域是非常重要的。 该方法首先利用卷积神经网络(CNN)提取图像的特征。然后,通过引入多个注意力机制,分别关注图像的局部细节、稀疏区域和密集区域。 首先,该方法引入了局部注意力机制,通过对图像的局部区域进行加权来捕捉人群的局部特征。这使得网络能够更好地适应不同区域的密度变化。 其次,该方法采用了稀疏区域注意力机制,它能够识别图像中的稀疏区域并将更多的注意力放在这些区域上。这是因为稀疏区域往往是需要重点关注的区域,因为它们可能包含有人群密度的极端变化。 最后,该方法还引入了密集区域注意力机制,通过提取图像中人群密集的区域,并将更多的注意力放在这些区域上来准确估计人群数量。 综上所述,boosting-crowd-counting-via-multifaceted-attention是一种通过引入多个注意力机制来提高人群计数的方法。它能够从不同方面细致地分析图像,并利用局部、稀疏和密集区域的特征来准确估计人群数量。这个方法通过考虑人群分布的细节,提供了更精确的人群计数结果。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值