2019 CVPR
Abstract
提出一个新奇的框架,能够同时解决两个内在联系的问题,技术和定位。
由图1说明,虽然人群总数一致,但局部人数是不一致的,是不准确的。
1. Introduction
contribution:
-
(1).模型能够判断精确的位置,因为
1.1以往的MAE loss 不适合判断人群位置,应该采用稀疏性鼓励的损失,此处引入二元交叉熵损失的归一化变量。 1.2观察到不同人群密度的区域具有非常大的定位性能差距。故,引入一个attention model,找出最需要被zoom的,最需要被复验的区域,重复此操作,直到没有这类区域出现。
-
(2).count和location 相互促进。模型的multi-branched,每个branch
分别count或locate,最后做加权和。 -
(3).新的 evalution protocol
2.related work
3.1 Network Architecture
- counting branch
和CSRnet 一模一样,VGG16的前13层+一些dilated conv layes
loss有一些差别
- localization branch
VGG16 前13层接3个deconv layers。(deconv layers 是什么样的)
用K=[0 1 0 ;1 1 1 ;0 1 0] 来得到ground truth map
loss 用BEL loss ,计算入(3)
为了提高定位准确度,
先用33 stride=1 的平均卷积用,来提高尖点压缩噪声。
然后,用NMS避免检测点过近。也可以33的maxpooling,更为效率。为什么??
还有个疑问??,用以上的K卷积得到的GT,求sum,应该不是人群总数,这里理解对吗?但后文有用到基于localization map 的count,所以这里需要明确。
-
Two-stream fusion:
鉴于随着人群密度增大,两个branch的准确率都减低了,但location branch 相对更差。
每个图片partition成4*4的subimages,并采用公式4 这种策略来计算总数。
疑问 θf 是什么 -
Zooming Region Proposal Branch
cat 以上两个branch的预测结果,进行高密度区域的定位。有一系列的,喂到下面的RAZ-Net -
Recurrent Attentive Zooming Net:
这个Branch 不包含counting branch。
这个Net的网络设置和权重与Main-Net一样,为了反正过拟合。
此外RAZ-Net 可以不断的训练和使用。
3.2 Implementation Details
训练顺序 counting branch -> localization branch -> zooming region proposal branch
30GPUS ???
4 Evaluations and results