2021论文解读:Learning To Count Everything

此文着眼于仅用少量标注样本完成物体计数的任务。

1 研究近况

1.1 小样本

当前的小样本学习研究主要集中在分类任务上,例如图片(物体)分类、文本分类。较少触及检测、分割等任务的,因为小样本学习问题的核心在于快速地识别新类别,相比于分类,检测和分割更加复杂。

2019reweighting
在这里插入图片描述
2019年,第一篇小样本物体检测的论文发布(Few-shot object detection via feature
reweighting),2020年有Few-shot object detection with attention-rpn and multi-relation detector。小样本+物体检测的研究开始密集起来。这些模型大多都有两个分支,一个分支输入支撑集,另一个输入查询集,有Matching Network的影子(Matching Networks for One Shot Learning)。

当然也有用元学习方法的研究,但是比较少,例如Few-shot scene adaptive crowd counting using meta-learning关注的是,在小样本情况下实现人群计数的场景迁移(源域和目标域的背景不同,计数的对象相同——都是人群)。也有用MAML+物体追踪的,例如Tracking by instance detection: A meta-learning approach,用MAML算法来解决在小样本情况下的物体跟踪,但对多尺度或者多类别的识别并不好。

当前罕有直接触及小样本物体计数问题的,更准确地说,是利用小样本实现新类别的计数这一问题。
比较接近这一工作的有2018年提出的GMN模型(Class-agnostic counting),但GMN在测试时,需要较多标注样本来进行微调,离“小样本”这一概念相差较远(仅仅几个标注样本)。

Learning To Count Everything应该算是第一篇关注利用小样本实现新类别计数的论文。

1.2 物体计数

物体计数方面的研究大多关注单个类别的计数。方法可以分为基于检测(老)、基于密度图回归、直接回归等。
三种方法各有优劣:

  • 完美的检测自然可以获得完美的计数,但检测方法需要框标注,物体紧密排列、长宽比大、旋转等问题都容易导致检测方法性能崩塌,加入旋转参数又容易导致锚框数量剧增,训练周期长。
  • 密度图回归方法需要事先设置高斯核的大小,对物体的尺度比较敏感。
  • 直接回归的方法不能看到物体的位置,因此失去了改进的潜在机会。
    此文作者选择了基于密度图回归的方法。

2 Learning To Count Everything论文解读

这篇论文发表于CVPR 2021,作者单位是石溪大学。代码已经开源,代码量少得惊人。

2.1贡献

  • 开源了一个小样本物体计数的数据集,共有超过6000张图,140多类物体,平均每张图的物体数量是56。通常每张图只有一类物体有标注(点标注),每张图只有几个物体有额外的框标注(也有点标注)。
    在这里插入图片描述
  • 提出了一个小样本计数网络FamNet,相比于流行的计数网络,通用性更强。流行的计数网络多数针对单类物体,比如针对人群、动物、细胞、交通工具、植物等。

2.2 网络结构

在这里插入图片描述

  • 输入:训练时输入密度图真值以及原图、几个标注框的位置;测试时输入原图、几个标注框的位置。标注框总是在同一张图上。有别于GMN等模型的两个分支的特点。
  • feature extraction module:利用resnet 50的前面4个blocks(也就是扔掉了全连接层),但冻结了这4个blocks的参数,不可改变,同时还用了FPN的多尺度来强化特征。
  • ROI pooling:将标注框所框的特征抠出来,池化成统一的大小。
  • feature correlation layer:ROI pooling取得的特征 和 特征提取器获得的特征做相关计算,得到的张量输入到下一层预测密度图。
  • density prediction module:预测密度图。

2.3 新的损失函数

  • Min-Count loss:每个框对应位置的物体数量应该至少是1个,若小于1个就产生损失。大于等于1不产生损失,框可能包含超过一个物体。(思考:可否用轮廓标注?这样损失函数就更加精确。)
    在这里插入图片描述
  • Perturbation Loss:从目标跟踪的研究借用correlation filter而来的。给定一个需要跟踪的物体以及它的标注框,当一个框位于标注框的位置有最大的响应值,当这个框偏离了标注框,它的响应值根据距离指数型下降。
    在这里插入图片描述
  • 总的损失:
    在这里插入图片描述

3 新方法的性能

  • 对比目标检测网络,精度更好,即使目标检测网络已经在某些类别上(COCO数据集里)预训练过。
  • 对比计数网络,通用性更加强,但可能对某种类别计数不如专门训练过的网络。如GMN在CARPK训练过,对汽车的计数精度高,但对其他类别的计数精度较低。
  • 如果增加标注量,FamNet的精度会进一步提升。
    更多实验结果可看原论文

4 潜在的改进

  • 工作机制方面:在测试阶段,每张需要计数的图片都需要标注,如果能提供外部图片+标注,可以避免这种情况。
  • 密度图回归计数的固有缺陷:对尺度敏感。
  • 5
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
### 回答1: 扫描学习是一种无监督学习方法,可以让计算机自动分类图像,而无需使用标签。这种方法利用计算机自身的能力,通过对图像进行分析和比较,自动学习图像的特征和模式,从而实现图像分类。这种方法可以应用于许多领域,如计算机视觉、自然语言处理等。 ### 回答2: Scan是一种基于自监督学习的图像分类方法。传统的深度学习方法需要大量标注数据,而Scan则不需要标注数据,它能够从未标注的图像中学习分类知识,并能够应用于各种计算机视觉任务中。 Scan的核心思想是通过从原始图像中恢复出遮挡图像来进行自监督训练。具体来说,Scan通过首先将原始图像随机分成两部分,一部分为遮挡图像,另一部分为非遮挡图像,然后训练模型来预测这两部分的图像是否匹配。如果预测不匹配,那么模型就要试图从非遮挡图像中预测出遮挡图像,以此来让模型学会更好的特征表示。 通过这种方式,Scan可以利用未标注的数据进行训练,并学习到图像中的语义信息。与传统的监督学习方法相比,Scan能够学习到更加通用的特征表示,能够在不同的任务中表现出色。 除了图像分类,Scan还可以应用于其他计算机视觉任务,如目标检测、语义分割等。此外,Scan还具有一定的鲁棒性,能够应对一些图像中的扰动和变形,使得其在真实场景中具有更好的适应性。 总体来说,Scan是一种非常有前途的自监督学习方法,能够有效降低图像分类等计算机视觉任务中的标注成本,并为实际应用提供了更多的可能性。 ### 回答3: Scan是一种基于自监督学习的图像分类算法,它不需要人工标注样本标签。Scan算法通过基于对抗学习的迭代优化方式对网络进行训练,使得网络在没有任何标注信息的情况下能够完成准确分类任务。 Scan算法的实现过程首先是构建一个深度卷积神经网络模型,然后从随机图像中选取一对图像,将其中一个图像进行随机扰动后作为输入,然后让模型判断另一个图像是原图像还是扰动后的图像。通过不断地迭代训练网络参数,在训练的过程中自动地提取有用的特征信息,并建立了适应于分类任务的特征表示。当模型经过训练后,可以将训练好的网络模型运用在具体的图像分类任务中。 Scan算法相比于传统的有监督分类算法具有很大的优势。传统的有监督分类算法需要耗费大量的时间和人力成本来标注数据,而且还需要面对数据集不完备、混淆样本等挑战,而Scan算法可以自动地学习分类任务相关的特征表示,避免了标注数据的困难。而且Scan算法不依赖于任何特定的图像类型或数据集,适用于大量的图像分类任务。 当前,Scan算法已被广泛应用于图像和视频处理领域,取得了显著的效果。Scan算法的研究对于推动自监督学习算法以及计算机视觉领域的发展具有重要的意义。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值