此文着眼于仅用少量标注样本完成物体计数的任务。
1 研究近况
1.1 小样本
当前的小样本学习研究主要集中在分类任务上,例如图片(物体)分类、文本分类。较少触及检测、分割等任务的,因为小样本学习问题的核心在于快速地识别新类别,相比于分类,检测和分割更加复杂。
2019年,第一篇小样本物体检测的论文发布(Few-shot object detection via feature
reweighting),2020年有Few-shot object detection with attention-rpn and multi-relation detector。小样本+物体检测的研究开始密集起来。这些模型大多都有两个分支,一个分支输入支撑集,另一个输入查询集,有Matching Network的影子(Matching Networks for One Shot Learning)。
当然也有用元学习方法的研究,但是比较少,例如Few-shot scene adaptive crowd counting using meta-learning关注的是,在小样本情况下实现人群计数的场景迁移(源域和目标域的背景不同,计数的对象相同——都是人群)。也有用MAML+物体追踪的,例如Tracking by instance detection: A meta-learning approach,用MAML算法来解决在小样本情况下的物体跟踪,但对多尺度或者多类别的识别并不好。
当前罕有直接触及小样本物体计数问题的,更准确地说,是利用小样本实现新类别的计数这一问题。
比较接近这一工作的有2018年提出的GMN模型(Class-agnostic counting),但GMN在测试时,需要较多标注样本来进行微调,离“小样本”这一概念相差较远(仅仅几个标注样本)。
Learning To Count Everything应该算是第一篇关注利用小样本实现新类别计数的论文。
1.2 物体计数
物体计数方面的研究大多关注单个类别的计数。方法可以分为基于检测(老)、基于密度图回归、直接回归等。
三种方法各有优劣:
- 完美的检测自然可以获得完美的计数,但检测方法需要框标注,物体紧密排列、长宽比大、旋转等问题都容易导致检测方法性能崩塌,加入旋转参数又容易导致锚框数量剧增,训练周期长。
- 密度图回归方法需要事先设置高斯核的大小,对物体的尺度比较敏感。
- 直接回归的方法不能看到物体的位置,因此失去了改进的潜在机会。
此文作者选择了基于密度图回归的方法。
2 Learning To Count Everything论文解读
这篇论文发表于CVPR 2021,作者单位是石溪大学。代码已经开源,代码量少得惊人。
2.1贡献
- 开源了一个小样本物体计数的数据集,共有超过6000张图,140多类物体,平均每张图的物体数量是56。通常每张图只有一类物体有标注(点标注),每张图只有几个物体有额外的框标注(也有点标注)。
- 提出了一个小样本计数网络FamNet,相比于流行的计数网络,通用性更强。流行的计数网络多数针对单类物体,比如针对人群、动物、细胞、交通工具、植物等。
2.2 网络结构
- 输入:训练时输入密度图真值以及原图、几个标注框的位置;测试时输入原图、几个标注框的位置。标注框总是在同一张图上。有别于GMN等模型的两个分支的特点。
- feature extraction module:利用resnet 50的前面4个blocks(也就是扔掉了全连接层),但冻结了这4个blocks的参数,不可改变,同时还用了FPN的多尺度来强化特征。
- ROI pooling:将标注框所框的特征抠出来,池化成统一的大小。
- feature correlation layer:ROI pooling取得的特征 和 特征提取器获得的特征做相关计算,得到的张量输入到下一层预测密度图。
- density prediction module:预测密度图。
2.3 新的损失函数
- Min-Count loss:每个框对应位置的物体数量应该至少是1个,若小于1个就产生损失。大于等于1不产生损失,框可能包含超过一个物体。(思考:可否用轮廓标注?这样损失函数就更加精确。)
- Perturbation Loss:从目标跟踪的研究借用correlation filter而来的。给定一个需要跟踪的物体以及它的标注框,当一个框位于标注框的位置有最大的响应值,当这个框偏离了标注框,它的响应值根据距离指数型下降。
- 总的损失:
3 新方法的性能
- 对比目标检测网络,精度更好,即使目标检测网络已经在某些类别上(COCO数据集里)预训练过。
- 对比计数网络,通用性更加强,但可能对某种类别计数不如专门训练过的网络。如GMN在CARPK训练过,对汽车的计数精度高,但对其他类别的计数精度较低。
- 如果增加标注量,FamNet的精度会进一步提升。
更多实验结果可看原论文
4 潜在的改进
- 工作机制方面:在测试阶段,每张需要计数的图片都需要标注,如果能提供外部图片+标注,可以避免这种情况。
- 密度图回归计数的固有缺陷:对尺度敏感。