《Class-agnostic Few-shot Object Counting》WACV2021

摘要

提出了一个有效的对象计数网络,称为Class-agnostic Few-shot Object Counting Network (CFOCNet),它支持在训练阶段未见过的任意类别对象的计数。该模型基于输入的参考图像进行实例计数,减少了为每个新对象类别收集数据、训练和参数调整的巨大成本。CFOCNet利用了查询图像与参考图像之间的相似性以及查询图像的自注意力机制来学习自我重复性。通过使用双流ResNet匹配不同尺度的特征,网络可以自动学习聚合不同尺度的匹配分数。在COCO数据集的子集上评估了该方法,该子集包含80个类别的对象和许多多样化的场景。实验表明,CFOCNet在少样本对象计数方面,以大优势超越了其他方法,包括检测和一些先前的工作。

概述

拟解决的问题:大多数先前的工作只关注于计数特定类别的对象,如人、汽车、动物等。然而,近年来有许多应用需要得到未见过的类别对象的计数,例如机械臂需要抓取新对象。论文旨在解决如何在未见过的类别上进行有效的少样本对象计数问题。

创新之处:

  1. 提出了一个不依赖于特定类别的少样本计数模型,这是首次关注此类场景的工作。
  2. 提出了一个有效的网络架构,通过在不同尺度上计算查询图像和参考图像的相似性,将计数问题转化为匹配问题。
  3. 与类似工作相比,CFOCNet在COCO数据集的子集上具有最低的平均绝对误差(MAE)和均方误差(MSE)。

方法

  • 问题定义:给定一个包含多个不同对象的查询图像和同一类别的几个参考图像,模型应该输出参考图像在查询图像中包含的实例数量。
  • 网络架构:CFOCNet主要基于双流ResNet,通过匹配机制在不同尺度上计算匹配分数,然后通过可学习的加权融合机制结合不同尺度的匹配分数图。最终计数是通过积分预测的密度图来计算的。

 3.1 匹配机制

为了计算查询图像和参考图像之间的匹配度,首先需要对参考图像的特征进行聚合。通过最大池化操作沿参考图像的维度 j 对特征进行聚合:

使用卷积操作计算查询特征和聚合后的参考特征之间的匹配分数。首先在查询特征上应用自注意力机制以增强模型对查询图像中重复对象的自我相似性的关注:

然后,使用最大池化操作沿空间维度将参考特征的分辨率降低到 r×r,以减少计算成本。

接着,使用卷积操作计算匹配分数: 

Conv 表示卷积操作,它计算查询特征图的每个空间位置与参考特征的相似度。由于卷积核来自参考流的特征图,因此不需要额外的可训练变量,实现了一种无参数的卷积。

3.2 密度图解码器

由于查询图像中对象的尺度变化,需要一个尺度感知的融合机制。通过可学习的加权和机制自动关注模型认为重要的尺度,使用1x1卷积将每个匹配分数图 MiMi​ 的通道数减少到1,并通过求和操作生成一个标量:: 

然后,使用Softmax函数对这些标量进行归一化,得到每个匹配分数图的权重:

Softmax函数确保权重 W 的元素之和为1,从而可以合理地表示不同匹配分数图的重要性。 

 根据计算得到的权重 WW,将不同尺度的匹配分数图进行加权融合:

为了生成最终的密度图,需要将融合后的匹配分数图 FF 的空间分辨率提高到与原始图像相同。这通常通过转置卷积(也称为反卷积)和上采样来实现。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值