<Learning Spatial Awareness to Improve Crowd Counting>
背景介绍
由于人群计数的数据集很难对每个目标提高box, 所以之前的工作都是利用头部中心的位置和高斯 分布生成gt.
现存的人群计数集中在提供尺度不变的特征表述(那种多列并行的网络), 主要是为了空间感知能力. 在这其中作者发现, 对密度区域估计不足, 对稀疏区域估计过多. 这种明显的空间感知缺陷主要由两个原因造成的:
- L2损失很难保持在高密度图中的高频变化: 最小化L2损失就是努力达到全局平均最小化, 这通常导致过于平滑, 因此空间感知能力差
- L2损失对于噪音敏感
之前工作提出MESA loss可以通过求出预测的Density Map与GT的差异最大的矩形分区解决上诉问题,但是方案的计算复杂度很高,而且不能通过梯度下降最优化. 本文的灵感就来自这个损失.改进成了去找误差最大的点,而不是误差最大的区域, 提出了Spatial Awareness Network和Maximum Excess over Pixels loss.
本文方案
1. Spatial Awareness Network
如上图的多分支架构, 每个分支预测两个mask(一个mask是另一个mask的子区域)利用弱监督排序信息来发现差异大的像素,然后通过模仿显著性区域检测利用整个图像进行差异检测,从而获得与 ground truth 具有较大差异的像素级子区域S。
-
Multi-brach Architecture
每个分支patch的选择, 每个patch的右下角和原特征图右下角重合, 然后从分支上到下patch的棉结不断增大, 直到和特征图一样大. 但是由于patch的叠加, 这会不利于最后的最优化. 所以就擦除掉最后上个分支对应的区域. -
Pixel-level Subregion Generation
啥意思呢? -
Maximum Excess over Pixels (MEP) loss
2. MEP loss
总结
看了一半没看懂后续, 感觉对自己的任务没啥帮助, 就看到这吧