论文介绍《CrowdFormer： An Overlap Patching Vision Transformer for Top-Down Crowd Counting 》

一昂Yang

已于 2022-07-29 16:54:53 修改

阅读量803

点赞数 2

分类专栏：杂文文章标签： transformer 深度学习人工智能

于 2022-07-29 16:14:08 首次发布

本文链接：https://blog.csdn.net/shaopeng568/article/details/126057968

版权

杂文专栏收录该内容

5 篇文章 1 订阅

订阅专栏

paper 【ijcai2022】 CrowdFormer： An Overlap Patching Vision Transformer for Top-Down Crowd Counting

code（正在整理中，最近工作比较忙，整理的比较慢）

任务：本工作属于通过密度图作为中间结果，建立输入图片和输出密度图的映射关系，对密度图积分即图片人数，密度图还能反映不同区域人员疏密程度。

动机：和其它视觉任务一样Crowd Counting任务遇到scale variation的问题，本工作从label genration和density map prediction 两个方面出发去解决这个问题，提高精度（MAE of 67.1 and MSE of 301.6 on NWPU-Crowd dataset，NWPU benchmark，截止20220729在benchmark上排在第三，剧透一下新的工作比这个精度又有提升哦，可以重新冲到榜首）。

贡献：

1）将Transformer结构用于density map estimation，提出了新的网路结构CrowdFormer。

（2）优化了KDMG【2】，提出了一种融合新的密度图GT生成方法multiple density kernels fusion based density map generator（KFMG）。

CrowdFormer：

（1）主要关注Overlap Patching Transformer Block，Transformer全局感受野和FPN结构强强联合，使得该网络能很好的处理scale variation的问题，除此之外这个block还有其它优点：

a)实现2倍下采样，可以减少计算量（对Transformer结构很有用）。

b)始终保持Feature map结构只是，所以不用使用position embedding，可以隐式的编

码相对位置结构。

c)从attention的角度看可以选择在pooling过程中留下最有用的特征，所以优于yolo中用conv

代替maxpoolling（这点是我最自豪的一个点，可以扩展到其他工作里）。

（2）这里使用了一个新的P-sigmoid，因为之前的工作普遍使用的是abs约束输出值，直觉上感觉

有点不科学，但是直接使用sigmoid又不符合密度图值域的要求（pixel值>1）,实验证明

P-sigmoid还是很有效果的。

KFMG：

这个是在KDMG上进行优化的，KDMG确实一个很好的工作，简单粗暴有效。在此之前大家都是使用固定的高斯核生成GT，但是由于人头大小变化很大，使用固定大小的高斯核显然是不科学的，所以KDMG提出了一种可学习的GT density map生成方式，但是KDMG在实际生成中倾向于生成一个值很平均的kernel，（KDMG使用一个3*3或者5*5的kernel），KFMG使用3*3和5*5的kernel相融合，让kernel更关注人头中心区域，可以减少噪声的影响。

结果：

写在后面：写这篇的目的想简单的介绍一下拙作，写的不好大佬们海涵。2021年初公司的一个人群密度估计的项目让我开始接触密度估计相关的知识。接触后发现密度估计真的很有趣，比目标检测任务有趣，因为目标检测做的很郁闷，就是copy怪，一言不合用yolo，什么项目来了统统用yolo。接触到密度的时候仿佛让我在目标检测积累的知识有了用武之地（可能是换了种方式copy，在这里感谢yolo）。当时正好Transformer遍地开花，所以萌生把transformer用在密度估计任务上，当时我做的时候有一篇在密度上的应用Transcrowd【1】，但是Transcrowd是一种弱监督密度估计，我这篇好像是第一篇把Transformer用在密度图估计的工作。论文的名字好像跟印度的一个铁子的工作重名了，但是我应该是比他早的，我这个本来是应该中的cvpr2022，一点点失误（不是论文的问题，个人失误）改投了ijcai，损失很大呀，因为我看现在招聘上写的都是在三大顶会等发表过论文的优先，jcai排不上号。不过这也没事，工作还在继续，新工作在指标上有很大提升，如果公司支持那cvpr2023也不是不可以，奥利给。

引用：

【1】 Liang Dingkang, Chen Xiwu, et al. Transcrowd: Weakly-supervised crowd counting with transformer. CoRR, abs/2104.09116, 2021.

【2】Jia Wan, Qingzhong Wang, and Antoni B Chan. Kernel-based density map generation for dense object counting. Transactions on Pattern Analysis and Machine Intelligence, 2020.

部分引用，其它都在论文里有。

一昂Yang

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
论文介绍《CrowdFormer： An Overlap Patching Vision Transformer for Top-Down Crowd Counting 》

Crowd Counting ，ijcai2022拙作介绍
复制链接

扫一扫