You only need to look at once 系列用于目标计数？——Object Counting：You Only Need To Look At One论文笔记

乄洛尘

已于 2022-05-13 09:33:56 修改

阅读量2.4k

点赞数 1

分类专栏：目标检测研究文章标签：深度学习机器学习计算机视觉

于 2021-12-29 10:13:21 首次发布

本文链接：https://blog.csdn.net/qq_38929105/article/details/122189326

版权

目标检测研究专栏收录该内容

11 篇文章 0 订阅

订阅专栏

You only need to look at once 系列用于目标计数？——Object Counting：You Only Need To Look At One 论文笔记

一、Abstract
二、引言
三、相关工作
四、方法
五、实验
六、结论
参考文献推荐

写在前面
这是第二篇关于目标计数的文章，站在上一篇的肩膀上，思路比较简单，重点在于模型的搭建，创新点也是比较足。

论文地址：Object Counting：You Only Need To Look At One
代码链接：暂无，等待开源~
预计提交于 CVPR2022
第一次更新：2022年5月3日，看了一些文章，本文归属于类别无关的单类别计数问题，即一张图片中只有一个类别，但是总的图库里面类别很多。

一、Abstract

本文旨在解决单次目标计数的问题，具体来说，仅采用包含一个示例样本bounding box的图像作为输入，来统计出该类别所有目标的个数。因此，本文提出了一种Look At One instance(LaoNet)网络来解决该问题。首先采用一个特征关联模块联合自注意和关联注意力模块学习类内关系和类间关系，这使得网络能够对不同尺度目标更加鲁棒，然后再用一个尺度聚合机制提取不同尺度的信息。

二、引言

首先点出目标计数很重要，顺便强调下目前现有的难点：所有类别和标签的收集极其困难，进而引出少样本计数，而本文的工作正是上一篇少样本目标计数的拓展。接下来强调单样本计数存在的主要问题：1、目标计数任务中包含不同的类别，甚至一张图片里面就有多个类别，而在少样本计数中，这些类别在训练和推理阶段不会重叠；2、在单样本计数中，模型仅仅能从单个实例中学习；3、目标的尺寸、形状可能大相径庭。
本文提出的LaoNet主要由三个部分组成：特征提取、特征关联、密度回归。特征提取和特征关联旨在解决上面的挑战1、2。本文设计的特征关联模块得益于两种类型的注意力模块：自注意力和关联注意力，通过考虑所有存在的联系而解决了上述的问题。之后进一步提出尺度聚集机制来解决挑战3。
本文贡献如下：

设计了一种新颖的网络用于单样本目标计数，主要是自注意力机制和关联注意力机制；
提出了一种尺度聚合机制来提取更加全面的特征以及融合多尺度的box信息；
FSC-147、COCO数据集在没有微调的情况下性能牛批。

三、相关工作

目标计数大致可分为基于检测的方法和基于回归的方法。缺点要么类别限定，要么需要大数据的标注，之后少样本计数出现了。而本文进一步提升为单样本计数。需要注意的是，当基于检测的方法用在少样本计数和单样本计数时，一般表现的很糟糕，可能的主要原因在于需要额外的所有实例标注。

四、方法

4.1 问题定义

单样本计数由一训练数据集 $\left(I_{t},s_{t},y_{t}\in \mathcal T\right)$ 和一序列集 $\left(I_{q},s_{q}\in \mathcal Q\right)$ 组成，而模型的输入由一幅图像 $I$ 和一个Bounding box $s$ 组成。训练时， $y_t$ 作为点标注提供；推理时，单样本 $s_q$ 和图像一起提供。

4.2 特征关联

在这里插入图片描述
基于自注意力与关联注意力模块来建立起特征关联，主要是多头注意力机制，以及层正则化。
之前的方法采用提供的Boxes特征作为内核来匹配目标类别的相似性，但是这极大依赖于样本的质量，因此本文提出特征关联模块用于学习query和支持的图像特征之间的关系，以及减轻不相关属性的限制，本质就是多头注意力外面套了两次层正则化以及FFN。

4.3 特征提取和尺度聚合

采用VGG-19作为backbone(?有点过于简单)，取其最后一层输出直接展平后送入Self-Attention模块中。对于单样本，采用尺度聚合机制融合不同尺度的信息：
$S=\operatorname{Concat}\left(\mathcal{F}^{l}(s), \mathcal{F}^{l-1}(s), \ldots, \mathcal{F}^{l+1-\delta}(s)\right)$
其中， $l$ 为CNN的层数， $\mathcal{F}^{i}$ 为第 $i_{th}$ 层的特征图， $\delta\in[1,l]$ 决定了聚合哪些层的特征。另外，加上位置特征以区分整合的尺度信息：
$\begin{array}{l} P E_{\left(p o s_{j}, 2 i\right)}=\sin \left(\operatorname{pos}_{j} / 10000^{2 i / d}\right) \\ P E_{\left(p o s_{j}, 2 i+1\right)}=\cos \left(\operatorname{pos}_{j} / 10000^{2 i / d}\right) \end{array}$
其中 $i$ 是维度表示， $pos_{j}$ 是第 $j_{th}$ 层特征图上的位置。

4.4 训练损失

采用欧几里得距离来衡量预测的密度图与GT密度图之间的差异，定义如下：
$\mathcal{L}_{E}=\left\|D^{g t}-D\right\|_{2}^{2}$
其中 $D$ 为预测的密度图， $D^{gt}$ 为GT密度图。为了提高局部样式一致性，还采用了 $\textrm{SSIM}$ 损失，最终总损失为：
$\mathcal{L}=\mathcal{L}_{E}+\lambda \mathcal{L}_{S S I M}$
其中 $\lambda$ 为平衡权重。

五、实验

5.1 实施细节与评估标准

密度回归器由1个下采样层和3个带有ReLU激活的卷积层（2个1x1，1个1x1）组成，数据增强采用随机放缩和翻转，Adam优化器， $lr=0.5\times10^{-5}$ ，4个注意力头，两次self-attention+co-attention， $\delta=2,\lambda=10^{-4}$ 。
评估指标采用均方绝对误差Mean Absolute Error (MAE) 和均方根误差Root Mean Squared Error (RMSE)：
$E=\frac{1}{M} \sum_{i=1}^{M}\left|N_{i}^{g t}-N_{i}\right|$
$E=\sqrt{\left.\frac{1}{M} \sum_{i=1}^{M}\left(N_{i}^{g t}-N_{i}\right)^{2}\right)}$
其中， $M,N^{gt}$ 为图片的数量，GT计数的数量， $N$ 通过对预测的密度图求和得到。

5.2 数据集

FSC-147

这是上一篇计数文章里面的数据集，6135张图片，每张图片采用3个随机选择的BBox目标和其他的点目标作为标注。数据分布情况：训练集3659图片，89类别；验证集1286张图片，29类别；测试集1190张图片，29类别。

MS-COCO

将原来的COCO数据集划分为4个训练/测试分布，每个分布包含60个训练类别和20个测试类别，总共80个类别。

5.3 与其他少样本计数的方法进行比较

在这里插入图片描述

5.4 讨论

各组件的贡献

在这里插入图片描述

收敛速度

在这里插入图片描述

与目标检测的方法进行比较

在这里插入图片描述

六、结论

本文剑指单样本计数，只需模型看一眼某个实例就能统计该类别的个数；提出了LaoNet，由特征关联模块和尺度聚合模块组成，性能灰常好。

参考文献推荐

【1】Viresh Ranjan, Udbhav Sharma, Thu Nguyen, and Minh Hoai, “Learning to count everything,” in CVPR, 2021.
【2】 Shuo-Diao Yang, Hung-Ting Su, Winston H Hsu, and Wen-Chin Chen, “Class-agnostic few-shot object counting,” in WACV, 2021.
【3】Claudio Michaelis, Ivan Ustyuzhaninov, Matthias Bethge, and Alexander S Ecker, “One-shot instance seg mentation,” arXiv preprint, 2018.

写在后面
这篇工作是对之前少样本计数的拓展，模型结构换了，基本上算是正常的创新，接下来文章还有很多，仍需要大量阅读。