摘要
DAN机制可以激活更多的目标像素点,在support和query图像间构建一个稳固的关系。
介绍
目前大部分的小样本分割方法都是基于prototype来进行。这类方法用了一个两分支的编解码结构,这两个分支为support分支和query分支,support分支主要为了从support图像中提取到一个prototype类,query分支用这个得到的prototype来分割query图像。为了实现这个目的,使用全局平均池化来将support图像上的特征映射到一个向量上,让分割基于一个新的特殊矩阵,比如在全局向量与query图像的特征图的cos相似度。但是掩膜平均池化的操作不可避免地会导致丢失support图像上的空间信息,得到一个含噪声的输出。
考虑到这个问题,利用图注意力机制构建了在support和query图像的像素点到像素点的连接。然而,由于在像素间的偏好竞争,在support图像中只有前景目标的一小部分会被激活,这就会导致support和query图像的像素点之间的连接只有一小部分比较明显,很大程度地限制传递信息。
而本文的主要思想就是在训练时增大权重小的,抑制权重大的连接。 这样就可以通过处理更大的区域,而不是较小的特定区域,使得网络能够建立更加稳固的连接。 通过这种方法前景的所有像素点都能够参与到连接当中。同时,构建了一个多层图注意力来获得多层的语义信息,其中多层图进行编码,在解码部分使用提取融合单元(refinement fusion unit)进行融合多层注意力信息。
DAN ( Democratic Attention Network)
在小样本分割当中,训练集Dtrain与测试集Dtest中的类别是不重叠的,在实验过程中这些数据集会划分成多个子集,每个子集里面包含一个S={xsi,msi}si=1其中包含某个c类的k张xs图像,对应的二值掩膜ms,而 ϑ \vartheta ϑ={xq,mq}包含query图像xq和相关的真实掩膜mq。
训练过程是将在Dtrain里随意采样的support和query对进行训练,然后得到从{S,xq}到目标掩膜mq的映射。
可以从图中了解到DAN的作用就是构建support图像与query图像间的联系,然后将不同的语义层获取到的特征图{
f l a f^a_l fla}Ll=1输入到设计好的提取融合单元(refinement fusion unit RFU)来得到用于query图像实现多尺度的效果。将 x q , ( x s , m s ) x^q ,(x^s,m^s) xq,(xs,ms)作为输入,然后输出query图像的分割图 m ^ \hat{m} m^。
结构总览
首先对support图像与query图像都进行特征提取,使用的是一个共享权重参数网络,最后得到一些深度特征图
然后将得到的每个深度特征对输入到DGA(democratized graph attention)块中,得到在每一个独立语义层support与query之间的联系。这样就能够得到在多个语义层上的分层注意图{
f l a f^a_l fla}Ll=1</