人群计数 ICCV2019 Multi-Level Bottom-Top and Top-Bottom Feature Fusion for Crowd Counting（MBTTBF）

最新推荐文章于 2024-07-29 13:05:38 发布

g chen

最新推荐文章于 2024-07-29 13:05:38 发布

阅读量1.2k

点赞数

分类专栏：深度学习人群计数文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/weixin_42169000/article/details/103802417

版权

本文介绍了ICCV2019中的一种人群计数方法，名为MBTTBF，它通过多级底部到顶部和顶部到底部的特征融合提升人群密度图的生成效果。传统方法常将低层特征连接到网络末端，但MBTTBF主张双向融合，以保留低层的细节和高层的语义信息。网络结构包括VGG16作为Backbone，采用Attention fuse module和SCFB模块实现特征融合。实验结果显示MBTTBF在多个数据集上表现出色，尤其是在QNRF数据集上。

摘要由CSDN通过智能技术生成

Multi-Level Bottom-Top and Top-Bottom Feature Fusion for Crowd Counting

概述

本文介绍ICCV2019中的人群计数文章。人群计数的目标是生成对应图片的人群密度图，在过去的方法中，采用的多尺度特征融合的方式常常是将low level的特征连接到网络的末尾。但本文认为这样的方式可能会影响低层网络的性能。

由于我们知道，网络的高层常常代表了更丰富的语义特征，但由于多次的池化等操作后失去了空间位置的特征。而网络的低层则更多对应着细节和空间位置等信息。因此一种直观的想法就是将低层的特征和高层的特征进行融合，作为最终特征的输出。过去的研究中常常只采用了单向的特征流动，也就是仅仅将低层的信息融合到高层。这样虽然能恢复一部分空间信息，但是对低层网络的表现能力也会起到严重的负面作用。

网络结构

在这里插入图片描述
如图所示，文章展示了多种不同的特征融合方式。前几张图片表示了从低到高或从高到低的单向融合，这样的方式都会产生一定的负面作用，不利于网络的表达。因此作者提出了一种双向特征融合的方式，将低层特征融合到高层，也将高层特征融合到低层。但类似图e中的方式一个方向仅仅提供了一条融合的支路，因此最终作者采用了一种multi level的融合方式，能对低层和高层特征进行更好地利用。网络的最终结构如下。Backbone依旧是使用了VGG16