Counting Varying Density Crowds Through Density Guided Adaptive Selection CNN and Transformer Estim

CTASNet(人群计数

 提出问题:

CNN可以在低密度区域准确定位和估计人群,而在高密度区域很难正确感知密度。相反,Transformer在高密度区域具有较高的可靠性,但无法在稀疏区域定位目标,CNN和Transformer都不能很好地处理这种密度变化。

 

解决方法:

提出了一种CNN和Transformer自适应选择网络(CTASNet),该网络可以针对不同密度区域自适应选择适当的计数支路。首先,CTASNet生成CNN和Transformer的预测结果。然后,考虑到CNN/Transformer适用于低密度/高密度区域,设计了密度引导的自适应选择模块,以自动组合CNN和Transformer的预测此外,为了减少注释噪声的影响,我们引入了基于相关熵的最优传输损耗。CNN和Transformer自适应选择网络(CTASNet),该框架能够在低密度区域自适应定位目标,并在高密度区域感知人群密度

对于给定的图像,CTASNet首先分别通过CNN和Transformer网络生成两种人群密度图。

为了自适应地确定稀疏区域和密集区域的不同计数模式,提出了一种密度引导的自适应选择模块(ASM),通过分别在低密度/高密度区域自动选择CNN/变压器估计来获得最终预测。

点注释在人群数据集中被广泛采用,它是稀疏的,只能占据整个人类头部的一个像素。存在不可避免的注释错误。为了缓解这一问题,我们在最优传输框架中设计了一个基于相关熵的传输成本函数,该函数可以明确容忍注释错误

Transformer估计分支负责密集人群区域,而CNN估计分支专注于预测稀疏人群区域。

为了减少计算量,我们采用VGG 16主干来获得较低分辨率的特征表示,这些特征表示将分别送到Transformer估计分支和CNN估计分支。

对于每个图像,首先使用VGG16主干中的前13个卷积层来提取高级特征表示F4、F5。在Transformer估计分支中,深度特征F5被展平并传输到Transformer编码器。然后,使用回归解码器预测最终密度图。在CNN估计分支中,顶部特征F5通过一个Atrous spatial pyramid  pooling (ASPP)模块来获得特征F5',从而获得更大的感受野。之后,回归解码器使用串联和双线性上采样将多尺度特征F4和F5’融合到最终密度图中。然后,通过将来自CNN和Transformer分支的预测与设计的密度引导自适应选择模块自动组合,获得最终输出。最后,我们设计了一个基于熵的OT损失来监控最终输出

损失函数

采用了DM Count中提出的损失函数由计数损失、最优运输(OT)损失和总变(TV)损失的加权总和表示。

实验结果

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值