论文:https://arxiv.org/abs/2104.09116
代码:GitHub - dk-liang/TransCrowd: TransCrowd: Weakly-Supervised Crowd Counting with Transformer
本文主要是搞弱监督的人群计数+Transformer。
首先全监督的人群计数就是通过点级标注生成ground truth(GT),然后再放入CNN中回归生成预测密度图。但是全监督的问题是点级标注耗时耗力,并且在测试时并不使用带注释的点标签。如图(a)所示。
目前的弱监督就是直接回归图像的总计数,直接从图像到计数。如图(b)所示。
本文提出的TransCrowd就是在弱监督上加上一个transformer。
整个模型看下来并没有什么大的创新点,图片处理是按照VIT把图片切成一个个patch,线性映射后变为一个个token。token的处理有两种,一种是仿照一般模型加class token的做法加了一个regression token。另外一种是不加额外的token而是采用全局平局池化操作来降低序列长度。
最终实验结果如图:
代码的话还在看,里面timm库是有问题的。他的要求里的timm=0.1.30会报错,改成 pip install timm==0.3.2