背景
文中提出了一种用于识别高密度场景的网络模型 CSRNet,用于精确完成场景计数并生成高质量密度图像。CSRNet 由两部分构成:前半部分为卷积神经网络CNN,作为2D特征提取器,后半部分使用空洞卷积(Dilated Convolution)来增大感受野,并代替池化层。由于全卷积的结构,CSRNet很容易训练。文章在4个数据集上对CSRNet进行了测试,并取得了当前最优的效果。
此前效果最好的人群计数方法主要是基于多列卷积网络(MCNN)和密度等级分类器的 SwitchCNN 和 CP-CNN,存在以下不足:
- 多列卷积网络在训练困难,耗时长。
- 多列卷积网络的各列效果大同小异,结构冗余大。
- 密度等级分类器的精度难以把控,高精度的分类器又会导致模型结构过于复杂。
- 大量参数被用于密度等级分类器,使得密度生成部分反而精度不足。
CSRNet 结构
CSRNet 的模型结构由 front-end 和 back-end 组成。其中 front-end 是 vgg-16 的前 10 层,back-end 则有 A、B、C、D 四种基于不同 dilation rate 的配置,如下图所示。

Ablation Experiments
在 S

本文介绍了一种名为CSRNet的网络模型,它用于高密度场景的人群计数,能生成高质量的密度图像。CSRNet采用卷积神经网络作为特征提取器,并利用空洞卷积替代池化层,有效提升感受野,简化了模型结构,提高了训练效率。该模型在多个数据集上取得了优秀结果。
最低0.47元/天 解锁文章
395

被折叠的 条评论
为什么被折叠?



