[论文笔记 CVPR2020]Attention Scaling for Crowd Counting

[论文笔记 CVPR2020]Attention Scaling for Crowd Counting

论文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Jiang_Attention_Scaling_for_Crowd_Counting_CVPR_2020_paper.pdf

概述摘要 Abstract

基于卷积神经网络的方法通常是将人群计数任务看做成一个回归任务,也就是说建立图像内容到密度图分布之间的一个映射关系。但是对于不同的密集程度会出现overestimate或者underestimate的问题,为了解决这个问题,提出了新的方法和网络结构。

在这里插入图片描述

模型包含两部分,DANet和ASNet。
DANet = Density Attention Network
ASNet = Attention Scaling Network

首先DANet会根据不同密集程度区域,进行密度级别的语义分割,生成不同密度级别区域的attention masks,其次ASNet会生成密度图和尺度因子(scaling factor),然后对应不同密度区域的密度图、mask、scaling factor相乘。在不同密集程度的区域,尺度因子会帮助减少estimation errors。

针对这个模型,提出新的损失函数Adaptive Pyramid Loss对模型进行优化,将density map分成若干个区域来分别计算local normalized loss然后求和得到最终的estimation loss。

动机 Motivation

  • 观察到在高密集的区域往往会overestimate,在低密集区域会underestimate人数。

贡献 Contributions

  • Propose a novel attention scaling convolutional neural network(ASNet) that learns scaling factors to automatically adjust the density estimation of each corresponding sub-region, which reduces the local estimation error.
  • Propose a density attention network(DANet) that provides ASNet with attention masks concerning regions of different density levels.
  • Propose a novel adaptive pyramid loss that can ease the training bias and stengthen the generalization ability of the counting network.
  • Compared with other 16 newly reported state-of-the-art results, our proposed approach denmonstrates its superiority on four challenging crowd datasets.

密度等级标签的生成 Density-level ground-truth generation

pixel-wise density segmentation task
将每个pixel都匹配上一种density level,相同的density level的pixels形成该密度级别的区域region(mask)。

生成pixel-wise ground truth算法步骤

  1. 使用64*64的sliding window,统计非零区域的人数大小,求得最大值 M a x C n t MaxCnt MaxCnt,最小值 M i n C n t MinCnt MinCnt,平均值 A v g C n t 11 AvgCnt_{11} AvgCnt11。这样就会构成一个密度等级的阈值集合 { M i n C n t , A v g C n t 11 , M a x C n t } \{MinCnt, AvgCnt_{11}, MaxCnt\} {MinCnt,AvgCnt11,MaxCnt}。这样就可以将密度等级划分成low和high两个等级;
  2. 类似地,可以继续迭代地划分下去,在 [ M i n C n t , A v g C n t 11 ] [MinCnt, AvgCnt_{11}] [MinCnt,AvgCnt11] [ A v g C n t 11 , M a x C n t ] [AvgCnt_{11}, MaxCnt] [AvgCnt11,MaxCnt]区间之间可以再分别计算出均值, A v g C n t 21 , A v g C n t 22 AvgCnt_{21}, AvgCnt_{22} AvgCnt21,AvgCnt22,得到新的阈值集合, { M i n C n t , A v g C n t 21 , A v g C n t 11 , A v g C n t 22 , M a x C n t } \{MinCnt, AvgCnt_{21}, AvgCnt_{11}, AvgCnt_{22}, MaxCnt\} {MinCnt,AvgCnt21,AvgCnt11,AvgCnt22,MaxCnt}
  3. 这样就能得到标签用于训练DANet,在网络输出得到 N N N个foreground attention masks后,使用一次膨胀操作来扩大每个mask。
  4. 有overlap的情况的话,就在overlapped区域取平均值。

DANet网络结构

在这里插入图片描述

ASNet网络结构

ASNet网络结构有两个分支,DE-branch和AS-branch。其中,DE-branch用于输出密度图,AS-branch用于输出尺度因子。

在这里插入图片描述

Adaptive Pyramid Loss

作者提出了这个adaptive pyramid loss,用于优化这个ASNet。其主要思想也是将图片进行划分,然后分别统计局部区域的损失。设置一个阈值,如果该区域的人数超过这个阈值,将这个区域继续划分,否则即可通过如下公式进行计算得到损失值,最后求和就行。

在这里插入图片描述
在这里插入图片描述

模型总体结构 Model Architecture

在这里插入图片描述

消融实验

在这里插入图片描述

实验结果及对比实验

在这里插入图片描述
在这里插入图片描述

Qualitative Analysis

最后作者进行了qualitative analysis,该模型相比于baseline在一些类似树、楼道等背景区域的密度估计会好一些,使得模型更robust。
在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值