ICCV2019-DSSINet: Crowd Counting with Deep Structured Scale Integration Network

最新推荐文章于 2022-11-24 20:27:41 发布

judgechen1997

最新推荐文章于 2022-11-24 20:27:41 发布

阅读量737

点赞数 1

分类专栏： crowd counting 文章标签： DL CV Crowd counting

本文链接：https://blog.csdn.net/judgechen1997/article/details/100829706

版权

crowd counting 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

师兄ICCV的论文哈哈。有人问到了模型效率问题，参数量还可以，但是flop很多，速度比较慢。实验室的另一个工作讨论了crowd counting的一些模型的运行效率：
Efficient Crowd Counting via Structured Knowledge Transfer

DSSINet overview

模型非常清晰，三个不同分辨率的图片经过三个网络支干，不断进行卷积&下采样，融合不同支干网络的特征，并小特征不断进行上采样再与之前的特征融合（类似FPN的模型流程）。

三条网络，最后一层都是VGG中的Conv4_3
在这里插入图片描述
本文主要贡献在：

特征的融合方式上，不是简单的加权叠加或者通道拼在一起。
使用了基于CRFs的Structured Feature Enhancement Module(图中的SFEM)
一种在不同尺寸下，对局部区域输出高质量density maps的loss计算方式—— a Dilated Mul-tiscale Structural Similarity loss

模块分析

论文中3.1节overview中表述了SFEM模块的作用，
在这里插入图片描述
下面具体介绍

SFEM

SFEM在不同scale，refine the features，并与CRFs model具有互补性
在这里插入图片描述

用CRFs model将特征refine：
在这里插入图片描述
然后这是特征融合方式？？？

就是这样稍微数学一点的融合方式？？

反正最后，得到了这样的一个迭代公式（7）：

$f_i$ 都是初始特征（论文中i=0，1，2），他们之间利用公式（7）相互迭代融合n次，最终得到若干个最终状态 $h_i^{n}$ ，作为融合后的特征。
其中迭代时的参数 $w_j^{i}$ 是可学习的，代表了 information content passed from $f_j$ to $f_i$ .
$w_j^{i}$ 是一个1x1的conv：
（how to train an iterative model???）
在这里插入图片描述
这种特征融合方式优点是比较稳：

DMS-SSIM loss

对每个像素周围的一定区域计算prediction和GT之间的相似性
在这里插入图片描述
SFEM融合完得到的最终特征为 $X_0$ , GT是 $Y_0$ ,
用DMS-SSIM网络来计算二者的loss：

DMS-SSIM是一个若干层的空洞卷积（使用固定且共享的高斯核参数）
得到的不同层级的特征可以用公式（8）表示：

空洞卷积会扩大感受野，这样后面层级的特征，每个像素的相当于融合了附近多个scale，这样再计算loss可以在不同scale都取得很好效果
然后对多个层级特征，应用一些统计学指标来度量相似性：
在这里插入图片描述
再进行处理得到最终loss：

judgechen1997

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
ICCV2019-DSSINet: Crowd Counting with Deep Structured Scale Integration Network

DSSINetDSSINet overview模块分析SFEMDMS-SSIM lossDSSINet overview模型非常清晰，三个不同分辨率的图片经过三个网络支干，不断进行卷积&下采样，融合不同支干网络的特征，并小特征不断进行上采样再与之前的特征融合（类似FPN的模型流程）。三条网络，最后一层都是VGG中的Conv4_3本文主要贡献在：特征的融合方式上，不是简单的加...
复制链接

扫一扫

专栏目录