Few-Shot Semantic Segmentation with Democratic Attention Networks阅读笔记

摘要
DAN机制可以激活更多的目标像素点,在support和query图像间构建一个稳固的关系。

介绍

目前大部分的小样本分割方法都是基于prototype来进行。这类方法用了一个两分支的编解码结构,这两个分支为support分支和query分支,support分支主要为了从support图像中提取到一个prototype类,query分支用这个得到的prototype来分割query图像。为了实现这个目的,使用全局平均池化来将support图像上的特征映射到一个向量上,让分割基于一个新的特殊矩阵,比如在全局向量与query图像的特征图的cos相似度。但是掩膜平均池化的操作不可避免地会导致丢失support图像上的空间信息,得到一个含噪声的输出。
考虑到这个问题,利用图注意力机制构建了在support和query图像的像素点到像素点的连接。然而,由于在像素间的偏好竞争,在support图像中只有前景目标的一小部分会被激活,这就会导致support和query图像的像素点之间的连接只有一小部分比较明显,很大程度地限制传递信息。

而本文的主要思想就是在训练时增大权重小的,抑制权重大的连接。 这样就可以通过处理更大的区域,而不是较小的特定区域,使得网络能够建立更加稳固的连接。 通过这种方法前景的所有像素点都能够参与到连接当中。同时,构建了一个多层图注意力来获得多层的语义信息,其中多层图进行编码,在解码部分使用提取融合单元(refinement fusion unit)进行融合多层注意力信息。

DAN ( Democratic Attention Network)

在小样本分割当中,训练集Dtrain与测试集Dtest中的类别是不重叠的,在实验过程中这些数据集会划分成多个子集,每个子集里面包含一个S={xsi,msi}si=1其中包含某个c类的k张xs图像,对应的二值掩膜ms,而 ϑ \vartheta ϑ={xq,mq}包含query图像xq和相关的真实掩膜mq
训练过程是将在Dtrain里随意采样的support和query对进行训练,然后得到从{S,xq}到目标掩膜mq的映射。

在这里插入图片描述
可以从图中了解到DAN的作用就是构建support图像与query图像间的联系,然后将不同的语义层获取到的特征图{ f l a f^a_l fla}Ll=1输入到设计好的提取融合单元(refinement fusion unit RFU)来得到用于query图像实现多尺度的效果。将 x q , ( x s , m s ) x^q ,(x^s,m^s) xq(xs,ms)作为输入,然后输出query图像的分割图 m ^ \hat{m} m^

结构总览
首先对support图像与query图像都进行特征提取,使用的是一个共享权重参数网络,最后得到一些深度特征图
在这里插入图片描述
然后将得到的每个深度特征对输入到DGA(democratized graph attention)块中,得到在每一个独立语义层support与query之间的联系。这样就能够得到在多个语义层上的分层注意图{ f l a f^a_l fla}Ll=1</

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值