ICCV2019-DSSINet: Crowd Counting with Deep Structured Scale Integration Network


师兄ICCV的论文哈哈。有人问到了模型效率问题,参数量还可以,但是flop很多,速度比较慢。实验室的另一个工作讨论了crowd counting的一些模型的运行效率:
Efficient Crowd Counting via Structured Knowledge Transfer

DSSINet overview

模型非常清晰,三个不同分辨率的图片经过三个网络支干,不断进行卷积&下采样,融合不同支干网络的特征,并小特征不断进行上采样再与之前的特征融合(类似FPN的模型流程)。
图一
三条网络,最后一层都是VGG中的Conv4_3
在这里插入图片描述
本文主要贡献在:

  1. 特征的融合方式上,不是简单的加权叠加或者通道拼在一起。
    使用了基于CRFs的Structured Feature Enhancement Module(图中的SFEM)
    在这里插入图片描述
  2. 一种在不同尺寸下,对局部区域输出高质量density maps的loss计算方式—— a Dilated Mul-tiscale Structural Similarity loss
    在这里插入图片描述

模块分析

论文中3.1节overview中表述了SFEM模块的作用,
在这里插入图片描述
下面具体介绍

SFEM

SFEM在不同scale,refine the features,并与CRFs model具有互补性
在这里插入图片描述

用CRFs model将特征refine:
在这里插入图片描述
然后这是特征融合方式???
在这里插入图片描述
就是这样稍微数学一点的融合方式??
在这里插入图片描述
反正最后,得到了这样的一个迭代公式(7):
在这里插入图片描述
f i f_i fi都是初始特征(论文中i=0,1,2),他们之间利用公式(7)相互迭代融合n次,最终得到若干个最终状态 h i n h_i^{n} hin,作为融合后的特征。
其中迭代时的参数 w j i w_j^{i} wji是可学习的,代表了 information content passed from f j f_j fj to f i f_i fi .

w j i w_j^{i} wji是一个1x1的conv:
(how to train an iterative model???)
在这里插入图片描述
这种特征融合方式优点是比较稳:
在这里插入图片描述

DMS-SSIM loss

对每个像素周围的一定区域计算prediction和GT之间的相似性
在这里插入图片描述
SFEM融合完得到的最终特征为 X 0 X_0 X0, GT是 Y 0 Y_0 Y0,
用DMS-SSIM网络来计算二者的loss:
在这里插入图片描述
DMS-SSIM是一个若干层的空洞卷积(使用固定且共享的高斯核参数)
得到的不同层级的特征可以用公式(8)表示:
在这里插入图片描述
空洞卷积会扩大感受野,这样后面层级的特征,每个像素的相当于融合了附近多个scale,这样再计算loss可以在不同scale都取得很好效果
然后对多个层级特征,应用一些统计学指标来度量相似性:
在这里插入图片描述
再进行处理得到最终loss:
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值