Switching Convolutional Neural Network for Crowd Counting(CVPR2017)——论文笔记

本文介绍了Switch-CNN网络结构,通过将图像分割为片段并使用独立的CNN回归网络,有效降低了估计错误并提高了密度地图的局部利用率。论文详细描述了预训练、差异训练、切换训练和耦合训练的步骤,并在多个数据集上验证了模型性能。
摘要由CSDN通过智能技术生成

Abstract

本篇论文主要做了以下三点:

  1. 端到端的switch-CNN来预测人群密度;
  2. Switch-CNN将人群照片的片段送入到独立的CNN回归网络来得到最小的估计错误和提高密度局部利用人群密度的变化率;
  3. 我们在三个通用数据集里测试网络的性能。

 

3 Our Approach

       在这篇论文中,我们提出了一个选择CNN结构的网络,通过网络将一张图片分成各个片段(patches),然后通过switch分离器,将patches送到不同的独立的CNN回归网络。

       这些独立的CNN回归网络选择不同的receptive fields 和 field-of-view作为multi-column CNN网络来提高参数的范围。

 

以红色方框圈住的图片patch为例,解释整个switch-CNN结构。该片段经过“SWITCH”到分类结果R3,所以将patch送到R3对应的CNN,从而得到对应的density map。

3.1. Switch-CNN

通过网格将输入图片分为9块patch。这样划分图片,人群的一些特点都能连续。

R1、R2和R3这三个网络使用的是论文《Single-Image Crowd Counting via Multi-Column Convolutional Neural Network》里面的CNN,它们有不同的receptive fields能够在图片中捕获不同尺寸大小的人。

R1第一层卷积层的过滤器的尺寸最大:9x9,这样能够捕获人群场景高维度的抽象特征,例如人脸、建筑物正面等。R2和R3第一层卷积层过滤器的尺寸分别为7x7和5x5.

SWITCH有以下两个部分组成:

  1. switch classifier;
  2. switch layer。

switch classifier是将VGG16网络的全连接网络层由平均池化层(global average pool——GAP)代替,然后在GAP后面接一个小的全连接网络和一个将结果分为3类的softmax层。

Ground Truth

我们通过使用高斯核模糊

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值