crowd counting_[crowd_counting]-SAANet-arxiv1901

14f2086a18e3d03bf80c03608efd9902.png

2118e92fa820c032773d02fa5757b396.png

1.网络结构

b57c77819f6c323ac2aa295d61e26966.png
网络结构overview图

(1)backbone(…conv3,conv4,conv5),尺寸压缩到1/16,输出层数为C,不确定,要看用什么backbone

(2)attention head应该是将backbone输出的C通道的feature map转化为3通道的feature map,经过不改变通道数的上采样,产生1/4原图大小的3个mask,每个mask是归一化的

05edcab26153a75019b9acee7464ca8c.png

(3)regression head应该是输出单通道的卷积操作,经过上采样,产生density map

(4)所有的上采样采用bilinear

(5)M1,M3,M3三个mask分别于D1,D2,D3三个density map进行相乘,再求和,产生一个合成的density map,最后经过上采样,得到最终预测的density map DF

b9d9562665ae1a6e2d63bb5c10fb8850.png

2.Contribution

本文focus on在使得网络能够适应不同尺度的人头

本文分析,不同尺度来自于两个原因,1.同一张图片中,由于远近造成的近大远小,2.同一场景,由于拍摄图片的分辨率,造成的人头大小,对于分辨率问题,文章同一resize到1920x1080,

对于近大远小问题,采用

(1)backbone产生多个density map,配合多个mask的attention,产生一个综合的density map

(2)认为backbone前面层产生的density map比较注意小人头,后面的层产生的density map感受野较大,比较注意大人头,所以采用scale-aware loss:

19d510926745ec906cefe8ea519972c1.png

这里的Sk(i,j)是每个人头用一个全1的圆表示的segmentation的mask,而background则是全0,对于density map D1,采用较小的圆半径,对于density map D2,D3,依次增大圆半径,让D1,D2,D3分别关注不同尺度的人头

最后一层输出的loss,就是普通的MSE loss

efb849010f57547a3be96ec5dc35433a.png

最终的loss:

9ad6795cab619aeebe1303043e5d6fbe.png

(3)新的ground truth的制作方法,结合head detection和adaptive-geometry的counting ground truth的制作方法,

对于近处,如果人头能检测到,那么该人头的半径评估如下:

aaf325410bcf7f75d022472ac8bc3303.png

929631901d14813a5ba6e88eae96cd32.png

e917396533423fd176bd7ebfd33ba71b.png

取两种方法的较小值,如果检测不到人头,那就直接用adaptive-geometry的结果,即ηGA基本上对于远处人头影响不大,这样做主要克服了近处分散的大人头用adaptive-geometry会偏大的问题

644f13e89d7a3a29f6c8c57461ec2221.png
counting ground truth的制作过程示意图

3.Experimet

1c43ace885a7530a4aeebe1c6db586c6.png

采用了VGG16的backbone,比较三种contribution的效果,发现采用Multi density map+Mask-attention即(+M),以及Img Res(resize到1080P),带来的效果最明显,加了scale-aware loss效果不明显

cfa65cf64ad6784aa0b8209c6572f79d.png


4.评价

最大的亮点在于在backbone中就产生多个density map,最后进行叠加,但是,他们产生mask没有用segmantation ground truth,其实可以用不同人头大小的segmentation ground truth去进行不同的mask的训练,再与不同的density map进行结合

boosting-crowd-counting-via-multifaceted-attention是一种通过多方面注意力提升人群计数的方法。该方法利用了多个方面的特征来准确估计人群数量。 在传统的人群计数方法中,往往只关注人群的整体特征,而忽略了不同区域的细节。然而,不同区域之间的人群密度可能存在差异,因此细致地分析这些区域是非常重要的。 该方法首先利用卷积神经网络(CNN)提取图像的特征。然后,通过引入多个注意力机制,分别关注图像的局部细节、稀疏区域和密集区域。 首先,该方法引入了局部注意力机制,通过对图像的局部区域进行加权来捕捉人群的局部特征。这使得网络能够更好地适应不同区域的密度变化。 其次,该方法采用了稀疏区域注意力机制,它能够识别图像中的稀疏区域并将更多的注意力放在这些区域上。这是因为稀疏区域往往是需要重点关注的区域,因为它们可能包含有人群密度的极端变化。 最后,该方法还引入了密集区域注意力机制,通过提取图像中人群密集的区域,并将更多的注意力放在这些区域上来准确估计人群数量。 综上所述,boosting-crowd-counting-via-multifaceted-attention是一种通过引入多个注意力机制来提高人群计数的方法。它能够从不同方面细致地分析图像,并利用局部、稀疏和密集区域的特征来准确估计人群数量。这个方法通过考虑人群分布的细节,提供了更精确的人群计数结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值