人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization

2019 CVPR
Abstract

提出一个新奇的框架,能够同时解决两个内在联系的问题,技术和定位。
由图1说明,虽然人群总数一致,但局部人数是不一致的,是不准确的。
在这里插入图片描述
1. Introduction
contribution:

  • (1).模型能够判断精确的位置,因为

       1.1以往的MAE loss 不适合判断人群位置,应该采用稀疏性鼓励的损失,此处引入二元交叉熵损失的归一化变量。
       1.2观察到不同人群密度的区域具有非常大的定位性能差距。故,引入一个attention model,找出最需要被zoom的,最需要被复验的区域,重复此操作,直到没有这类区域出现。
    
  • (2).count和location 相互促进。模型的multi-branched,每个branch
    分别count或locate,最后做加权和。

  • (3).新的 evalution protocol

2.related work
3.1 Network Architecture

在这里插入图片描述

  • counting branch

和CSRnet 一模一样,VGG16的前13层+一些dilated conv layes
loss有一些差别

  • localization branch
    在这里插入图片描述
    在这里插入图片描述

VGG16 前13层接3个deconv layers。(deconv layers 是什么样的)

用K=[0 1 0 ;1 1 1 ;0 1 0] 来得到ground truth map
loss 用BEL loss ,计算入(3)

为了提高定位准确度,
先用33 stride=1 的平均卷积用,来提高尖点压缩噪声。
然后,用NMS避免检测点过近。也可以3
3的maxpooling,更为效率。为什么??

还有个疑问??,用以上的K卷积得到的GT,求sum,应该不是人群总数,这里理解对吗?但后文有用到基于localization map 的count,所以这里需要明确。

  • Two-stream fusion:
    在这里插入图片描述
    鉴于随着人群密度增大,两个branch的准确率都减低了,但location branch 相对更差。
    每个图片partition成4*4的subimages,并采用公式4 这种策略来计算总数。
    疑问 θf 是什么

  • Zooming Region Proposal Branch
    在这里插入图片描述
    cat 以上两个branch的预测结果,进行高密度区域的定位。有一系列的,喂到下面的RAZ-Net

  • Recurrent Attentive Zooming Net:

这个Branch 不包含counting branch。
这个Net的网络设置和权重与Main-Net一样,为了反正过拟合。
此外RAZ-Net 可以不断的训练和使用。

3.2 Implementation Details

训练顺序 counting branch -> localization branch -> zooming region proposal branch
30GPUS ???

4 Evaluations and results
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值