人群计数:Single-Image Crowd Counting via Multi-Column Convolutional Neural Network(CVPR2016)

中文翻译:
人群计数:Single-Image Crowd Counting via Multi-Column Convolutional Neural Network(CVPR2016)
基于多列卷积神经网络的单图像人群计数

主要贡献:MCNN和Shanghaitech数据集

密度图生成见:人群计数(Crowd Counting)相关内容

I. Introduction

介绍了为什么要进行人群计数,也就是进行人群计数的意义。

Related work

这部分介绍了进行人群计数的集中方法:
1. 基于检测的人群计数方法 早期的方法采用一种检测风格的框架,该框架在视频序列的两个连续帧上扫描检测器,基于增强外观和运动特征来估计行人的数量。在基于检测的人群计数方法中,人们通常假设一个人群是由一些给定的检测器可以检测到的个体组成的。这种基于检测的方法的局限性是,在聚集环境或非常密集的人群中,人之间的遮挡会显著影响检测器的性能,从而影响最终的估计精度。
2. 基于视觉特征轨迹聚类 在计算视频中的人群时,人们提出对跟踪的视觉特征的轨迹进行聚类。例如,[24]使用高度并行化的KLT跟踪器和聚类法来估计移动人群的数量。[3]对简单的图像特征进行跟踪,并将其概率性地分组为代表独立运动实体的聚类。然而,这种基于跟踪的方法并不能用于从单个静态图像中估计人群的数量。
3. 基于特征的回归方法 人群计数最广泛使用的方法可以说是基于特征的回归,这种方法的主要步骤是: 1)前景分割; 2)从前景中提取各种特征,如人群掩模的面积 3)利用回归函数估计人群数量。线性或分段线性函数是相对简单的模型,具有良好的性能。其他更先进/有效的方法是岭回归(RR)、高斯过程回归(GPR)和神经网络(NN)
4. 基于CNN的方法来统计不同场景下的人群 Zhang等提出了一种基于CNN的方法来统计不同场景下的人群。他们首先为特定场景预先训练网络。当给定一个新场景的测试图像时,他们根据视图信息和密度图的相似性,选择相似的训练数据对预先训练的网络进行微调。他们的方法在大多数现有数据集上表现良好。但他们的方法需要在训练场景和测试场景上都绘制透视图。不幸的是,在许多人群计数的实际应用中,透视图并不容易获得,这限制了这种方法的适用性。

而后介绍了本文面临的挑战的基础下的贡献
1.多列结构,使用不同感受野大小的滤波器,以应对人群规模变化大的情况。
2.全连接使用1*1的卷积层代替,这样输入图片的大小可以是任意的。
3.其他数据集变化不够多样,不符合此模型的挑战要求,新建Shanghaitech数据集

2. Multi-column CNN for Crowd Counting

2.1部分介绍了密度图生成的方法,详见人群计数(Crowd Counting)相关内容中有关密度图生成部分,啊,我还是不复制过来了。

2.2部分介绍了MCNN网络模型。
MCNN网络结构
在这里插入图片描述
损失函数如下图所示:
在这里插入图片描述
因为网络中的池化层使原图片变为其1/4,所以再计算密度图之前也要将图片下采样为1/4,为了计算损失函数时两者的大小相同。

2.4部分介绍MCNN三列的初始化方法:通过将第四层卷积层的输出映射成密度图,分别对每一列CNN进行预训练,后用这些预训练的参数做MCNN初始化并微调参数。

Experiment

评价指标:MAE,MSE
在这里插入图片描述
介绍shanghaitech数据集
在这里插入图片描述
数据处理:
在这里插入图片描述
消融实验
1.预训练与没有预训练的对比
2.单列与整体的对比
3.还与其他损失函数进行了对比
在这里插入图片描述

不同模型之间的对比:
数据集:UCF_CC_50, UCSD,WorldExpo’10,Shanghaitech
UCF_CC_50:MCNN方法在除了UCF_CC_50(训练图片数量太少,难以满足深度学习的需求)以外的常用人群计数数据集上均取得最好的性能

在UCF_CC_50上有五折交叉验证(5-fold cross-validation):
5折交叉验证是一种常用的机器学习模型评估方法。它将数据集分成5个相等的部分,每次将其中一部分作为测试集/验证集,其他4部分作为训练集,重复进行5次,每次都选取不同的部分作为测试集,最后将5次在验证集上的评估结果取平均值作为模型的评估结果。这种方法可以有效地避免过拟合问题,并且能够更准确地评估模型的性能。

UCSD数据集中存在ROI(感兴趣区域): ROI是指感兴趣区域(Region of
Interest),它是指图像或视频中用户感兴趣的区域。通过确定ROI,可以减少算法处理的计算量,提高处理效率,并且可以更加准确地定位和处理图像中的目标。

3.6 Evaluation on transfer learning

transfer learning:将一个已经在大规模数据集上进行过训练的神经网络模型应用到新的任务中去的一种技术
表格中后面两行是微调全部MCNN还是微调后两层,结果是微调全部MCNN的结果与只在U数据集上训练得到的模型效果差不多。
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
boosting-crowd-counting-via-multifaceted-attention是一种通过多方面注意力提升人群计数的方法。该方法利用了多个方面的特征来准确估计人群数量。 在传统的人群计数方法中,往往只关注人群的整体特征,而忽略了不同区域的细节。然而,不同区域之间的人群密度可能存在差异,因此细致地分析这些区域是非常重要的。 该方法首先利用卷积神经网络(CNN)提取图像的特征。然后,通过引入多个注意力机制,分别关注图像的局部细节、稀疏区域和密集区域。 首先,该方法引入了局部注意力机制,通过对图像的局部区域进行加权来捕捉人群的局部特征。这使得网络能够更好地适应不同区域的密度变化。 其次,该方法采用了稀疏区域注意力机制,它能够识别图像中的稀疏区域并将更多的注意力放在这些区域上。这是因为稀疏区域往往是需要重点关注的区域,因为它们可能包含有人群密度的极端变化。 最后,该方法还引入了密集区域注意力机制,通过提取图像中人群密集的区域,并将更多的注意力放在这些区域上来准确估计人群数量。 综上所述,boosting-crowd-counting-via-multifaceted-attention是一种通过引入多个注意力机制来提高人群计数的方法。它能够从不同方面细致地分析图像,并利用局部、稀疏和密集区域的特征来准确估计人群数量。这个方法通过考虑人群分布的细节,提供了更精确的人群计数结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值