CTASNet(人群计数)
提出问题:
CNN可以在低密度区域准确定位和估计人群,而在高密度区域很难正确感知密度。相反,Transformer在高密度区域具有较高的可靠性,但无法在稀疏区域定位目标,CNN和Transformer都不能很好地处理这种密度变化。
解决方法:
提出了一种CNN和Transformer自适应选择网络(CTASNet),该网络可以针对不同密度区域自适应选择适当的计数支路。首先,CTASNet生成CNN和Transformer的预测结果。然后,考虑到CNN/Transformer适用于低密度/高密度区域,设计了密度引导的自适应选择模块,以自动组合CNN和Transformer的预测,此外,为了减少注释噪声的影响,我们引入了基于相关熵的最优传输损耗。CNN和Transformer自适应选择网络(CTASNet),该框架能够在低密度区域自适应定位目标,并在高密度区域感知人群密度。
对于给定的图像,CTASNet首先分别通过CNN和Transformer网络生成两种人群密度图。
为了自适应地确定稀疏区域和密集区域的不同计数模式,提出了一种密度引导的自适应选择模块(ASM),通过分别在低密度/高密度区域自动选择CNN/变压器估计来获得最终预测。
点注释在人群数据集中被广泛采用,它是稀疏的,只能占据整个人类头部的一个像素。存在不可避免的注释错误。为了缓解这一问题,我们在最优传输框架中设计了一个基于相关熵的传输成本函数,该函数可以明确容忍注释错误。
Transformer估计分支负责密集人群区域,而CNN估计分支专注于预测稀疏人群区域。
为了减少计算量,我们采用VGG 16主干来获得较低分辨率的特征表示,这些特征表示将分别送到Transformer估计分支和CNN估计分支。
对于每个图像,首先使用VGG16主干中的前13个卷积层来提取高级特征表示F4、F5。在Transformer估计分支中,深度特征F5被展平并传输到Transformer编码器。然后,使用回归解码器预测最终密度图。在CNN估计分支中,顶部特征F5通过一个Atrous spatial pyramid pooling (ASPP)模块来获得特征F5',从而获得更大的感受野。之后,回归解码器使用串联和双线性上采样将多尺度特征F4和F5’融合到最终密度图中。然后,通过将来自CNN和Transformer分支的预测与设计的密度引导自适应选择模块自动组合,获得最终输出。最后,我们设计了一个基于熵的OT损失来监控最终输出。
损失函数:
采用了DM Count中提出的损失函数,由计数损失、最优运输(OT)损失和总变化(TV)损失的加权总和表示。