2019论文阅读：SIMCO: SIMILARITY-BASED OBJECT COUNTING

最新推荐文章于 2025-05-09 22:56:41 发布

skipper-f

最新推荐文章于 2025-05-09 22:56:41 发布

阅读量341

点赞数

分类专栏：读论文文章标签：聚类深度学习计算机视觉算法无监督学习

本文链接：https://blog.csdn.net/qq_35599200/article/details/108425227

版权

读论文专栏收录该内容

4 篇文章

订阅专栏

提出SIMCO，一种无监督多类别目标计数模型，能识别并计数图像中未知类别的重复模式，适用于复杂场景下的物体计数任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

发表于CVPR2019

文章贡献

在这里插入图片描述

提出了SIMilarity-based object COunting (SIMCO)：一种多类别的无监督目标计数模型。

SIMCO对于物体的类别完全没有知识（completely agnostic）：所以不需要临时的、针对某个物品类别的调参；
能够对多类别物体进行计数，因为它能够区分不同类别物体类内的重复模式。

1.绪论

很多对相似物体进行计数的方法假想只有一类物体，如果不止一类，就需要临时进行额外的训练。在没有针对某些类别进行识别训练、调参的情况下，这些都不能捕捉到图片中各个类别的（同一类内）重复的模式。

None of them are truly agnostic and multi-class, i.e., able to capture generic repeated patterns of different type without any tuning.

计数方法主要有基于回归、基于检测、基于密度估计的，而SIMCO属于基于检测的。
无监督的物体计数可以帮助标注图片训练集的数据，为单类或者多类数据集提供初步的标记。
SIMCO的两点主要思想：

待计数的物体（尤其是比较小的物体）可以认为是特殊的基本二维形状，SIMCO将这一思想融入到基于Mask-RCNN的分类器，在一个合成的形状数据集InShape进行调参。
利用对待计数物体近似出来的二维形状，对待计数进行聚类(grouping circles with circles etc.)，这可以找到各个类别的类内相似的规律。SIMCO通过实现三元损失的网络体系结构中的head分支实现了这一点，该分支提供了一个64维的嵌入，如果对象共享相同的形状类和一些外观属性，则映射对象关闭。关联传播集群在此嵌入中找到组。

SIMCO real- izes this with a head branch in the network architecture imple- menting triplet losses, which provides a 64-dim embedding that maps objects close if they share the same shape class plus some appearance attributes. Affinity propagation clus- tering [23] finds groups over this embedding.

2.SIMCO的两个阶段

SIMCO是两阶段算法，包含检测和聚类两个阶段

2.1 SIMCO detection

InShape数据集

作者认为每个物体都可以用特定的二维形状来近似，这一想法通过在InShape（二维形状）数据集中训练Mask-RCNN来实现。InShape是一个合成的数据集，包含5万张图片，包含基本的形状有线，三角形，长方形，菱形，五边形、六边形、椭圆。
在这里插入图片描述
很可惜我找不到这个数据集，与论文作者联系后，他给我这个数据集：Texel-Att，这个数据集的类别只有3类——[‘circle’, ‘line’, ‘polygon’]。

网络结构：

作者在Mask-RCNN末尾增加了一个分支，称之为similarity head，输出每一个bounding box的视觉相似性描述子【similarity-based visual descriptor desc(b)】，这个分支层接在Mask-RCNN模型bounding box回归层的后面：descriptor函数是64维全连接层，从RoI特征对应到计算出来的bounding box。这一层的输出被归一化，限制在64维的单位超球体内。

The desc function is implemented as a 64-dimensional fully connected layer from the RoI features corresponding to the computed box b. The output of this layer is constrained on the 64-dimensional hypersphere [29].

similarity-based descriptor经过训练后：

同类（形状基本相似）同颜色并且同尺寸的实例最大程度的“靠近”；
同类但具有不同颜色或不同尺寸的实例或者甚至不同类的实例之间，有较大的“距离”。

以上两个条件是通过三元损失函数实现的：
$L = L_{cls} + L_{box} + L_{mask} + L_{sim}$
其中 $L_{cls} 、L_{box}、 L_{mask}$ 是Mask R-CNN已有的， $L_{sim}$ 是新定义的：
$\sum\limits_{(a,p)∈P;(a,p)∈N}=max(||desc(a)−desc(p)||_2−||desc(a)−desc(n)||_2+α, 0)$
$L_{sim}$ 项中的P、N分别表示同类型、不同类型，在论文中定义如下：

在这里插入图片描述

上图是我根据论文绘制的网络结构，我通过邮件与论文作者进行过沟通：

我绘制的网络结构是正确的；
训练时：在InShape数据集进行训练，不进行聚类过程（2.2节），也就是只进行到计算描述子的部分，描述子中的P、N分别表示同类型、不同类型，P、N是由maskrcnn输出的类别label对照Table 1的标准查表决定的。所以maskrcnn的分类精度会影响 $L_{sim}$ 的计算，一些误分类的目标会引入误差。在Texel-Att中polygon有很多种形状(六边形、矩形、平行四边形、类似纺锤体的多边形)，如果训练similarity head，使其对这些形态各异的polygon输出的描述子“互相接近”，那么模型会认为六边形和四边形是相似的——作者对“形状形似”这一条件放得太宽了；
模型对新的图片进行推理时：进行聚类过程，maskrcnn输出的classes必然是InShape数据集中的目标类别（如果用Texel-Att数据集，只能输出这3种类别[‘circle’, ‘line’, ‘polygon’]）

2.2 SIMCO clustering

2.1节嵌入的descriptor将具有相同形状和颜色且尺寸接近的物体紧密地映射到一起，从而可以应用聚类来发现自然的分组——每个聚类都是一个“视觉上的物体”。

在聚类过程中作者选择了AP聚类算法——“affinity propagation algorithm”。这个算法利用不同数据点对之间相似性的度量。

怎样在sklearn中使用AP聚类算法？
在这里插入图片描述

3.实验及结果

细胞计数实验：
在这里插入图片描述
在RepTile数据集进行实验，结果在table3中，种类形状各异；

实验结果的意义：

可以用于和计数有关的视觉问答问题
可以用来解决复杂多类聚类问题；

SIMCO为核心的图像处理算法可以批量选定一些特定形状，批量处理，利用了SIMCO的聚类功能。

4.总结

We presented SIMCO, a powerful and flexible framework to select and count clusters of similar objects in images. An extensive experimental testing showed that the main ideas behind the method, e.g. training the detection on a custom dataset made of photorealistic images with repeated basic shapes (InShape) and learning an optimal embedding for elements’ clustering based on InShape annotations are partic- ularly effective, making the framework suitable for a variety of practical applications in different domains.