CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learnin

CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning

论文地址:https://arxiv.org/abs/1903.02351v1

代码地址:https://github.com/icoz69/CaNet

  • 拟解决的问题:
  1. 用于按像素分割的数据标记是乏味且昂贵的
  2. 模型一旦训练后,很难将其应用于预测新类别
  • 主要创新点:
  1. 设置了两分支的密集比较模块,该模块可以有效利用CNN的多个级别的特征表示来进行密集特征比较;

(全局比较算法-计算整体图片的特征让后使用此特征进行匹配)

  1. 迭代优化模块,以迭代方式优化预测结果,只需要few-shot就可以生成细粒度的分割图
  2. 采用一种注意力机制来有效融合来自多个support样本的信息,实现1-shot扩展到k-shot
  3. 标注图片采用的是矩形框,与昂贵的像素级带注释的支持集减少了工作量
  • 方法:

 

任务描述:对于新的类(没有在训练集出现过),我们的模型能够在仅看到该类的几张图片时,从测试图像中分割出该类。训练模型后,参数将被固定,并且在新数据集上进行测试时无需优化。

One-shot:对于给定的类别,提供一个样本

k-shot:对于给定的类别,提供k个样本

  • Dense Comparison Module

 

启发:度量学习。考虑到图像分割需要对具有结构化表示的数据进行预测,采用像素级别比较消耗大量的计算成本,因此,在这里作者从支持图像中获取全局表示以进行比较,同时为了只关注已分配的类别,我们在前景区域上使用全局平均池化来过滤掉不相关的信息,然后将全局特征与query分支中的每个位置进行比较。

过程:该模块的输入是Support image与query image,然后使用同一个特征提取模型(ResNet block-2和block-3),获得中间级语义特征。(因为低级特征图中只包含低级特征如颜色、边界等,只有在高阶特征表示中才可以包含类别这种高级信息。)之后将support mask与在support image中得到的特征进行元素乘操作,目的是为了突出指定类别的信息,去除图像中的背景信息。在接下来使用全局平均池化操作得到该图像在确定类别下的特征向量,然后利用双线性插值的方法对其进行上采样,得到与query image生成的中间级语义特征维度相同的表示,然后将两者拼接操作,此操作旨在将查询分支中的所有空间位置与来自支持分支的全局特征向量进行比较。然后,连接的特征映射通过另一个3*3卷积块与256个卷积滤波器进行比较。最终得到了两个数据集的比较特征表示。

  • Iterative Optimization Module

 

该模块的输入是由密集比较模块生成的特征图和上次迭代的预测蒙版。将特征映射图与预测的蒙版直接连接为额外的通道会导致特征分布不匹配,因为第一次正向通过没有预测的蒙版。相反,我们建议以残差形式整合预测的蒙版:

其中x是密集比较模块的输出特征;yt-1是最后一个迭代步骤的预测蒙版,而 Mt是残差块的输出。函数F(.)是特征x和预测蒙版 yt-1的拼接,后跟两个具有256个滤波器的3×3卷积块。然后,我们添加两个具有相同数量卷积滤波器的原始残差块。最重要的是,我们使用Deeplab V3中提出的ASPP来捕获多尺度信息。(该模块由四个并行分支组成,这些分支包括三个3×3卷积,分别具有6、12和18的膨胀系数以及1×1卷积。1×1卷积是通过全局平均池化实现的图像级特征。然后,将生成的张量双线性上采样至原始空间大小。来自4个分支的输出特征被级联并通过具有256个滤波器的另一个1×1卷积进行融合。最后,我们使用1×1卷积来生成最终的蒙版,其中包括背景蒙版和前景蒙版。)我们使用softmax函数对每个位置的分数进行归一化,以输出前景和背景的置信度图。然后将置信度图馈送到下一个IOM以进行优化. 通过将置信度图双线性上采样到查询图像的相同空间大小并根据置信度图对每个位置进行分类,可以实现最终结果。

 

Attention Mechanism for k-shot Segmentation

具体的操作就是在DCM模块中添加了一个与密集比较卷积平行的注意力模块,每个注意力分制由两个卷积块组成,第一个卷积块是256*3*3,并使用3*3的池化,第二个只有一个3*3的卷积核,采用的是全局平均池化,得到了该support image下的影响分数,将所有的support image分数做softmax后得到最终的每个图像对结果影响的准确的分数。然后将得到的分数与每个support image特征表示相乘得到新的特征表示,最后将所有support image的特征表示累加之后得到最终support set在该类别下的特征表示。

  • 实验:

   数据集:PASCAL VOC 2012数据集和COCO数据集上

   评价指标:meanIoU

首先作者在PASCAL-5i上进行试验,PASCAL-5i数据集是从PASCAL VOC 2012数据集中筛选出来的专门用来做小样本学习语义分割的。

与当前先进的方法进行了比较,结果如下:

 

COCO数据集

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值