CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly
CSRNet:用于理解高度拥挤场景的膨胀卷积神经网络
中文翻译:论文学习笔记:CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes
CSRNet总体贡献:提出使用VGG部分网络作为前端(front-end),使用膨胀卷积层作为后端(back-end),生成更高质量的密度图,区别于MCNN将更多的参数用于密度图的生成。
1.Introduction
提出:
- 相同数目的人群分布可能完全不同,因此只是简单的计数是不够的,引出使用神经网络配合密度图,以及
- 使用神经网络进行人群计数的好处:
1.空间连贯性
2.语义分割准确性高
3.视觉显著性
4.好部署在硬件设备上 - 用实验验证MCNN不如常规的更深的CNN的效果好
实验证明MCNN的三列网络学习的是几乎相同的特征(下图如何说明学习到的是相同的特征的呢?)
答:small, medium, large分别代表MCNN网络的三层结构,下图横坐标为测试样本,纵坐标为测试的错误率,从图中可以看出三条线的变化趋势和位置几乎重合,说明三列网络学习到的几乎是相同的特征。
- 从而提出本文的CSRNet的网络结构,并说明本模型的参数数量比MCNN少。
2.Related work
从检测、回归、密度估计、CNN四种方法进行人群计数的相关研究,并提出SOTA(借助于MCNN)的缺点
1.更多的时间去训练
2.多余的结构
3.提到的两种方法都需要密度级分类器
4.确定密度级别的参数多,生成密度图的参数少,降低精度
(将大部分参数用于密度级别分类,即将输入图像中像素点所代表的密度分成几个级别进行分类,并用标签表示。导致在最终的密度图生成过程中,可用于表示密度的参数数量减少,从而影响计数结果的精度。)
3. Proposed Solution
首先介绍了CSRNet网络灵感来源的其他网络结构(借助于VGG)
使用膨胀卷积原因及优点分析
池化层/下采样:增大感受野,同时会缩小特征图的尺寸,容易丢失信息
膨胀卷积:
1.增大感受野,同时不增加计算量,保持特征图分辨率不变(相对于池化层),更好地保留特征图地信息/分辨率(相对于卷积-池化-反卷积的传统结构 见下图(分析?)),感受野的扩大有助于检测分割大目标,特征图分辨率的保持有利于精确定位目标。
2.当设置不同 dilation rate 时,会获取不同大小的感受野,亦即获取了多尺度信息。
什么是膨胀卷积?【机器学习】详解 扩张/膨胀/空洞卷积 (Dilated / Atrous Convolution)
膨胀卷积计算公式:
等效的核大小: k’=k+(k-1)*(r-1) 下一层
感受野计算:RF_i+1=RF_i+(k’_i - 1)×S_i
其中S_i为从第一层到第i层的步长的乘积
模型网络结构:
VGG16的前10层作为前端,保留三个池化层而不是5个,后端使用膨胀卷积层,其中使用shanghaitechA的消融实验验证B结构的效果最好,后面与SOTA的实验效果对比也是使用的B结构
4,3,76,1024->batch size, channels, height, width
论文中输入大小设置如下:
We crop 9 patches from each image at different locations with 1/4 size of the original image. The first four patches contain four quarters of the image without overlapping while the other five patches are randomly cropped from the input image. After that, we mirror the patches so that we double the training set.
4. Experiments
评价指标除了MAE和MSE,还加入了PSNR和SSIM(这两个值越大越好)(图像质量评价指标之 PSNR 和 SSIM)
进行了除了shanghaitechA的消融实验,还在ShanghaiTech、UCF_CC_50、The WorldExpo’10、UCSD上进行了实验,验证本文模型为最优结果
还在TRANCOS进行了扩展实验,使用评价指标Grid Average Mean Absolute Error(网格平均绝对误差,GAMMAE是指将原图像分成多个网格(grid)进行预测,并计算每个网格中实际像素值与预测像素值之间的平均绝对误差(MAE)。然后将这些MAE再次取平均得到整幅图像的GAMMAE值。)