霸榜NWPU-Crowd！CCTrans：基于Transformer的人群计数新网络！支持强、弱监督

最新推荐文章于 2024-08-30 17:37:40 发布

Amusi（CVer）

最新推荐文章于 2024-08-30 17:37:40 发布

阅读量2.2k

点赞数

文章标签：人工智能计算机视觉机器学习深度学习 python

本文链接：https://blog.csdn.net/amusi1994/article/details/120620571

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

NWPU-Crowd 榜首模型！CCTrans ：基于 Twins 简化并提升人群计数，支持强、弱监督

CCTrans: Simplifying and Improving Crowd Counting with Transformer

单位：哈尔滨工业大学（深圳）、美团
Arxiv: https://arxiv.org/abs/2109.14483
Github: 即将开源

人群计数的主流方式是卷积神经网络（CNN），但由于感受野有限，CNN 网络往往难以捕获全局特征来进行全局上下文建模，通常需要引入额外的注意力机制，模型结构逐渐趋向于复杂化。最近，视觉注意力模型（Vision Transformer [1]）凭借其强大的全局上下文建模能力，在视觉领域的多个任务中都有较为不错的表现，近期的一系列工作 PVT [2]，Twins [3] 已经展示了 Vision Transformer 对目标检测、分割等稠密预测任务的强大处理能力。因此，该文利用 Transformer 解决同为稠密预测的人群计数任务。和同期的工作 TransCrowd [4]， BCCT [5] 相比，该方法在整体上网络处理流程得到简化，且达到了更优的性能。目前该方法在多个公开数据集上，于强、弱两种监督形式下取得了 SOTA 的结果，尤其是在最新的大规模人群基数数据集 NWPU-Crowd 的在线测试中取得第一。

该文所提出的 CCTran 利用 Twins [3] 作为主干网，更有效地利用自注意力机制来捕获人群计数场景中的全局特征，避免了后端使用额外复杂的注意力机制。由于主干网最后阶段的高层特征依然较模糊，不利于回归精确的人群密度图，该文因此特别设计了特征金字塔融合模块（FPA）来利用低层特征补充细节信息，得到富含语义、细节信息及全局特征的人群特征。最后，针对性地设计多尺度的膨胀卷积模块（MDC）作为回归头，用于处理 Transformer 所捕获的全局特征，这对回归更精细且准确的人群密度图很有帮助。该方法支持强弱两种监督方式，回归的密度图既可直接与真实密度图计算强监督损失，也可在求和操作后与真实人数来计算弱监督损失。本文还分别对主流的强、弱两种监督形式的损失函数进行优化，以提升模型的泛化性能。

主要贡献

基于 Vision Transformer 构建结构简单且高性能的人群计数网络。
针对性地设计了有效的特征聚合模块以及高效的多尺度感受野回归头。
优化了现有的强、弱监督损失函数，提升了模型鲁棒性。
在五个主流数据集上均有不错的表现，在线测试数据集 NWPU-Crowd 上目前排名第一。

实验结果

五个主要数据集

CCTrans 在主流的五个数据集 UCF_CC_50、ShanghaiTech Part_A 和 Part_B、UCF_QNRF、NWPU-Crowd 都有着不错的表现。

可视化结果

从可视化结果看，CCTrans 有很好的适配能力，不同真伪信息、尺度和密度及不同光照条件的人群场景均能处理。这可能是由于 Twins 有很好的特征提取和上下文建模能力，新设计的 FPA 能够应对颜色信息缺失，而用多尺度 MDC 可以增强回归密度图的能力。综合起来， CCTrans 能够对全局范围内的尺度、密度差异及光照变化都有更好的处理，也没有将示例中的假人和无关背景识别为真人。

参考文献

An image is worth 16x16 words: Transformers for image recognition at scale https://openreview.net/pdf?id=YicbFdNTTy
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions https://arxiv.org/pdf/2102.12122.pdf
Twins: Revisiting the Design of Spatial Attention in Vision Transformers https://arxiv.org/pdf/2104.13840.pdf
TransCrowd: Weakly-Supervised Crowd Counting with Transformer https://arxiv.org/pdf/2104.09116v1.pdf
Boosting Crowd Counting with Transformers https://arxiv.org/pdf/2105.10926.pdf

CCTrans论文和代码下载

后台回复：CCTrans，即可下载上述论文和代码

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF

重磅！Transformer交流群成立

扫码添加CVer助手，可申请加入CVer-Transformer 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群