@[TOC]( [M-SFANet] Encoder-Decoder Based Convolutional Neural Networks with Multi-Scale-Aware Modules for Crowd Counting (ICPR2020)笔记)
阅读笔记,如有错误谢谢指正~
motivation:
人群计数中存在人群遮挡,透视失真,规模变化和不同的人群分布等问题
Inspired by
SFANet and SegNet
methods:
提出用于人群计数的M-SFANet 和M-SegNet
M-SFANet:
encoder-decoder框架
encoder部分为VGG前13层
decoder两个主要模块为CAN和ASSP
CAN
接受VGG第十层的特征图,average pooling 也设为 1,2,3,6来提取上下文特征
ASSP
接受VGG第十三层的特征图. 多尺度特征来源也是 1×1卷积和3×3卷积 空洞率为6,12,18
ASSP和CAN出来的第一个分支都分别concat到对方D3Block中,目的是更好的高级多尺度特征。
类似U-Net的级联是为了获取低级特征。
M-SegNet
没有CAN和ASSP模块,其他组件相同,bilinear upsampling 改为Max unpooling
目的:更快速高效。
损失函数为L2
性能SOTA