《Improved Crowd Counting Method Based onScale-Adaptive Convolutional Neural Network》论文笔记
论文地址
论文翻译
ABSTRACT
由于场景转换,复杂的人群分布,照明不均匀和遮挡等各种因素的影响,人群计数是一项具有挑战性的任务。为了克服这些问题,规模自适应卷积神经网络(SaCNN)使用卷积神经网络来获得高质量的人群密度图估计并整合密度图以获得估计的人数。提出了一种基于SaCNN的人群计数方法。对SaCNN中使用的几何自适应高斯核的扩展参数(即标准方差)进行了优化,以生成用于训练的更高质量的地面真实密度图。权重为4e-5的绝对计数损失与密度图损失共同优化,以提高行人少的人群场景的网络泛化能力。另外,采用随机裁剪方法来改善训练样本的多样性,以增强网络泛化能力。上海科技大学公共数据集上的实验结果表明,与SaCNN相比,该方法在人群计数上可以获得更准确,更可靠的结果。
I. INTRODUCTION
人群计数的目的是在获得人群密度的同时,估计人群场景中行人的数量。当人群密度超过一定的阈值1时,人群很容易失控,公众安全受到严重威胁。因此,人群计数的研究对安全领域具有重要意义,在视频监控、交通监控、城市规划建设等领域有着广泛的应用。它也是对象分割2、3、行为分析4、5、对象跟踪6、7、场景感知8、9、异常检测10、11等相关任务的组成部分。这可能是高水平认知能力12的基础。与其他计算机视觉问题一样,人群计数也面临着许多挑战,如遮挡、不均匀的人口分布、不均匀的光照、尺度和视角变化、复杂的场景变化等。任务的复杂性及其现实意义越来越受到研究者的关注。此外,人群计数方法可以很容易地转移到计算机视觉的其他任务中,如显微镜下的细胞计数13,14,车辆计数15,环境调查16。
~~~~~~ 与基于检测的人群计数方法(通常使用滑动窗口检测每个行人并计数行人17、18的数量)相比,基于回归的方法在高密度人群和严重遮挡场景1920的人群计数中较为流行,且效果良好。对于基于回归的方法,早期研究者提出学习从局部图像块19、21中提取的低水平特征与行数之间的直接映射。然而,这种直接回归的人群计数方法忽略了重要的空间信息。2010年,Lempitsky和Zisserman19提出学习图像块局部特征与其对应的密度图之间的线性映射,其中包括空间信息,然后对密度图上的任意区域进行积分,得到该区域内的物体总数。2015年,Phamet al.21提出学习图像块局部特征与密度图之间的非线性映射。2016年,Wang和Zou14针对现有人群密度估计方法计算复杂度低的问题,提出了一种基于子空间学习的快速度估计方法。同年,受到人脸识别等其他研究领域的高维特征的启发,Xu和Qiu20提出了一种利用更丰富的特征集来提高人群计数估计性能的方法。由于初始高斯过程回归或岭回归过于复杂,难以处理高维特征,因此采用随机森林作为回归模型。
~~~~~~ 近年来,卷积神经网络在许多计算机视觉任务中取得了很大的成功,这促使研究者们使用卷积神经网络来学习从人群图像到密度图或相应计数的非线性函数。2015年,Wanget al.22首先利用Alexnet架构23将卷积神经网络应用于人群计数任务。将4096个神经元的全连接层替换为只有一个神经元的连接层来估计人群图像中的行人数量。但该方法只能用于人群计数估计,无法获得图像的密度分布信息。Fuet al.24提出人群密度分为5个等级:超高密度、高密度、中密度、低密度和极低密度。他们参考Sermanet等人提出的多尺度卷积神经网络25、26来估计人群的密度水平。Zhanget al.27认为,当应用于与训练数据集不同的新场景时,现有方法的性能急剧下降。为了克服这个问题,提出了一种数据驱动的方法,利用训练数据对预训练的CNN模型进行微调,以适应未知的应用场景。然而,这种方法很大程度上依赖于准确的视角,需要大量的训练数据。2016年,Zhang等人28提出了一个多列CNN (MCNN),通过构造一个包含三个不同大小的过滤器(大、中、小)的列的网络。它可以适应由图像分辨率、视角或行人头部大小引起的变化。然而,由于训练过程繁琐,参数过多,网络训练难度大。Samet al.29在2017年提出了一个 Switching CNN,根据图像中不同的人群密度,使用一组特定的训练数据的图像patch训练返回者。zhang和Shi30提出了尺度自适应CNN (scale-adaptive CNN, SaCNN)来估计人群密度图,并整合密度图得到估计的人头数量,该算法在2017年获得了最先进的人群计数性能。在SaCNN中,对几何自适应高斯核进行了优化,以生成用于训练的高质量地面真实密度图。此外,还使用了密度图和相对人群计数损失函数进行联合优化。
~~~~~~ 为了获得更好的人群计数性能,提出了一种改进的基于SaCNN的人群计数方法。扩展参数,即优化了几何自适应高斯核的标准方差,生成了高质量的地面真值密度图。利用加权4e-5的绝对计数损失与密度图损失联合优化,提高了行人较少人群场景的网络泛化能力。将原始图像随机裁剪为256幅图像,提高训练样本的多样性,提高网络泛化能力。
~~~~~~ 一般来说,我们工作的主要贡献包括
~~~~~~ (1) 通过分析SaCNN中用于几何自适应高斯核的人头大小估计的参数设置,发现人头大小估计在相对稀疏的场景中会才产生较大的误差,这可能会影响地面实况密度图的质量并降低人群的准确性。因此,对几何自适应高斯核的标准方差进行了优化,以获得更准确的头部尺寸估计以及更高质量的地面真密度图。
~~~~~~ (2)使用绝对计数损失函数与密度图损失进行联合优化,以提高行人少的人群场景的网络泛化能力。
~~~~~~ (3)在ShanghaiTech公共数据集上进行的实验表明,我们改进的SaCNN的性能优于原始SaCNN。
~~~~~~ 本文的组织如下。在第二节中,SaCNNis进行了详细介绍。第三节介绍了改进的SaCNN用于人群计数,而第四节则进行了实验并分析了结果。最终结论在第五节中给出。
II. INTRODUCTION ON SACNN
~~~~~~ 在SaCNN30中,将人群图像映射到相应的密度图中,然后对密度图进行积分,得到人群计数。本节详细介绍了SaCNN,包括地面真值密度图的生成、体系结构和实现。
A. GENERATION OF THE GROUND TRUTH DENSITY MAP
~~~~~~ 在SaCNN中,利用几何自适应高斯核生成训练用的高质量地面真值密度图。
~~~~~~ 假设在像素 x i x_i x