Crowd counting 之 From Open Set to Closed Set: Counting Objects by Spatial Divide-and-Conquer

最新推荐文章于 2020-06-22 20:51:47 发布

rongliangzi_thu

最新推荐文章于 2020-06-22 20:51:47 发布

阅读量1.2k

点赞数 1

分类专栏： # 卷积神经网络人群密度识别深度学习

本文链接：https://blog.csdn.net/LeizRo/article/details/100272805

版权

深度学习同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

人群密度识别

4 篇文章 0 订阅

订阅专栏

卷积神经网络

2 篇文章 0 订阅

订阅专栏

ICCV2019年的文章，arxiv地址，出发点在于解决自然场景下区域人数范围无上限，与training set中场景人数有限的问题。
自然场景下，人数的变化范围是 $[0,+\infty)$ ，但是训练集中的图片场景有限，我们很难用有限的场景和有限的人数得到足够好的模型，来应对真实场景中 $[0,+\infty)$ 范围的人数变化。Figure 1描述了SHA数据集中的长尾效应，选取了很多 $64\times64$ 的patch，可以看到多数patch包含的人数少，误差低，少数包含人数多，误差大，那么对于回归器来说，是否有必要把所有的情况都统一放在同一个范围处理呢？举例，训练集和测试集中图片包含1000-2000人占5%，1000以下占95%，specifically 200以下80%，200到1000占15%，那么回归器如果对于所有的图片都在0到2000范围来回归，给人的感觉就是没有抓住重点，为了少数图片而极大的增加了搜索区域或优化区域。既然0-200的占80%，不如把主要关注点放在0-200上来，那剩下的200-1000和1000-2000怎么解决呢？counting有个独特的属性，空间可分割性（spatially decomposable），也就是1个区域分割为几个小区域再汇总起来，是典型的divide and conquer分治递归思想。比如我的回归器只关注于0-20人的区域，或者说在包含0-20人的场景/图片中效果好，精度高，那么对于人数多于20的（这个20应该是指初步估计结果），就把图像划分成4块，如果1/4的图像还是多于20人，继续划分。
那么问题来了，如何划分呢？
naive的方法是上采样，再根据密度分割，会导致图像模糊和指数级的复杂度。
Inspired by RoI
把open set转变为closed set问题

SDC

From quantity to interval

把要预测的数字范围从 $[0,+\infty)$ 划分为 $\{0\}，(0,C_{1}],(C_{1},C_{2}],...[C_{m},+\infty)$ ，这些子区间对应m+1个类，比如 $C_{1}<k<C_{2}$ 对应class=1，如果一个图片被分到 $C_{i},C_{i+1}]$ ，那么估计的人数是中位数 $\frac{C_{i}+C_{i+1}}{2}$ ，最后一个 $[C_{m},+\infty)$ 使用 $C_{m}$ 代替。

Single-Stage Spatial Divide-and-Conquer

Figure2所示，主干网络结构完全采用VGG，结合UNet，除去了最后的全连接，输入都是 $64\times64$ 的patch，由于有5个池化，所以得到 $2\times2$ 的feature maps，输入分类器中得到分类结果 $C_{0}$ ，作为整张图的密度估计结果。是为first stage
上采样加与上阶段的feature maps concat，conv得到 $4\times4$ 的feature maps，分为4个 $2\times2$ 区域，输入分类网络得到 $2\times2$ 的 $C_{1}$ ，每个元素对应原图4个 $32\times32$ 的sub-region。
如何决定分割哪个区域呢？
使用division decider
division decider会生成一个soft mask $W_{1}$ ，值在区间 $[0, 1]$ ，越接近0意味着越不需要分割。并以此计算划分结果division result： $DIV_{1}=(\mathbb{I}-W_{1})\cdot avg(C_{0})+W_{1}\cdot C_{1}$
与此类似， $DIV_{i}=(1-W_{i})\cdot avg(C_{i-1})+W_{i}\cdot C_{i}$ ， $DIV_{N}$ 积分得到最后的结果，作者说two stage已经足够好了，也就是 $N = 2$ 。
loss函数：cross-entropy对应于分类结果， $\ell_{1}$ loss对应于 $DIV_{N}$ ，总loss是加和（不需要设置权重吗）， $\mathcal L = \sum_{i=1}^{N}L_{C}^{i}+L_{R}^{N}$

Open set or closed set

这一段是想证明，在closed set上训练的模型，很难在open set上的实际场景有好的泛化能力。在cell counting数据集上选了若干个 $[0, 10]$ 的patch做训练集，若干 $[0, 20]$ 的patch做测试集，发现测试集中 $[0, 10]$ 区间的patch精度很高， $[10, 20]$ 区间的误差很大。