MSA-Net
Multi-Scale Attention Network for Crowd Counting
2019
作者:亚马逊
论文:https://arxiv.org/abs/1901.06026
创新点:
- 在backbone中就产生了多尺度的density map,经过上采样后,加入软注意力机制进行加权叠加。
- 提出了一个scale-aware loss,但是实验结果好像表明效果不大。
Baseline network for crowd counting
一个关于密度图的解释[链接]
MSA-Net的baseline network由三部分组成:
- backbone
- regression head
- 上采样层
图片输入到backbone中,经过下采样卷积,得到一个大感受野但分辨率只有原图 1 16 \frac{1}{16} 161的feature map。之后输送到regression head中生成density map,regression head是输出单通道的卷积操作,经过上采样,产生一样大小的density map。其中所有的上采样都采用双线性插值bilinear。
训练时的Loss选取的是pixel-wise Euclidean Loss:
作者使用了MCNN的方法来生成GT的密度图,用高斯核来对每个人头进行模糊处理。
Scale-aware soft attention masks
在网络的前向传递过程中,每一层都产生density map,最后合并成一个。为了进行密度图的合并,作者在每一个尺度都加入了软注意力机制,具体来讲就是用相应的mask M M