人群密度估计--Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization

最新推荐文章于 2022-07-13 10:14:55 发布

cxm1995

最新推荐文章于 2022-07-13 10:14:55 发布

阅读量3.9k

点赞数 1

分类专栏：论文

本文链接：https://blog.csdn.net/cxm4399/article/details/93980642

版权

论文专栏收录该内容

9 篇文章 0 订阅

订阅专栏

2019 CVPR
Abstract

提出一个新奇的框架，能够同时解决两个内在联系的问题，技术和定位。
由图1说明，虽然人群总数一致，但局部人数是不一致的，是不准确的。
在这里插入图片描述
1. Introduction
contribution：

(1).模型能够判断精确的位置，因为

   1.1以往的MAE loss 不适合判断人群位置，应该采用稀疏性鼓励的损失，此处引入二元交叉熵损失的归一化变量。
   1.2观察到不同人群密度的区域具有非常大的定位性能差距。故，引入一个attention model，找出最需要被zoom的，最需要被复验的区域，重复此操作，直到没有这类区域出现。

(2).count和location 相互促进。模型的multi-branched，每个branch
分别count或locate，最后做加权和。
(3).新的 evalution protocol

2.related work
3.1 Network Architecture
在这里插入图片描述

counting branch

和CSRnet 一模一样，VGG16的前13层+一些dilated conv layes
loss有一些差别

localization branch

VGG16 前13层接3个deconv layers。（deconv layers 是什么样的）

用K=[0 1 0 ；1 1 1 ；0 1 0] 来得到ground truth map
loss 用BEL loss ，计算入（3）

为了提高定位准确度，
先用33 stride=1 的平均卷积用，来提高尖点压缩噪声。
然后，用NMS避免检测点过近。也可以33的maxpooling，更为效率。为什么？？

还有个疑问？？，用以上的K卷积得到的GT，求sum，应该不是人群总数，这里理解对吗?但后文有用到基于localization map 的count，所以这里需要明确。

Two-stream fusion：

鉴于随着人群密度增大，两个branch的准确率都减低了，但location branch 相对更差。
每个图片partition成4*4的subimages，并采用公式4 这种策略来计算总数。
疑问 θf 是什么
Zooming Region Proposal Branch

cat 以上两个branch的预测结果，进行高密度区域的定位。有一系列的，喂到下面的RAZ-Net
Recurrent Attentive Zooming Net: