实例分割之PolyFormer:《PolyFormer:Referring Image Segmentation as Sequential Polygon Generation》

最新推荐文章于 2024-09-20 11:15:03 发布

交换喜悲

最新推荐文章于 2024-09-20 11:15:03 发布

阅读量1k

点赞数 24

分类专栏：目标检测相关论文文章标签：论文阅读目标检测人工智能深度学习 transformer

本文链接：https://blog.csdn.net/absence521/article/details/136560621

版权

目标检测相关论文专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2302.07387v2.pdf
代码地址：https://github.com/amazon-science/polygon-transformer

1.摘要

在这项工作中，不是直接预测像素级分割模板，而是将参考图像分割描述为连续的多边形生成，然后将预测的多边形转换为分割模板。这是由一个新的序列到序列：多边形转换器-PolyFormer实现的，该框架将一系列图像面片和文本查询标记作为输入，并自动回归一系列多边形顶点。为了更准确地进行几何定位，我们提出了一个基于回归的解码器，它直接预测精确的浮点坐标，没有任何的坐标化误差。在实验中，PolyFormer的性能明显优于现有技术，例如，在具有挑战的RefCOCO+和RefCOCOg数据集上，该算法也表现出了很强的泛化能力，例如，在Ref-DAVIS17数据集上获得了具有竞争力的61.5%的J&F。

2.介绍

参考图像分割结合了视觉语言理解和实例分割，目的是给定自然语言查询的对象的分割掩码。它将传统的对象分割从固定数量的预定义类别推广到用自由语言描述的任何概念，这需要对图像和语言语义有更深的理解。传统的流水线首先从图像和文本中提取特征，然后将多模态特征融合在一起来预测掩膜。
提出了一种序列-序列框架，并提出了一种用于参考图像分割的多边形变换，如图1所示，它以一系列图像块和文本查询标记作为输入，并自动回归地输出一系列多边形顶点，由于每个顶点预测都以所有先前预测的顶点为条件，因此输出预测不再彼此独立。Seq2seq框架在其输入和输出格式上都是灵活的，只要它们都可以被表示为可变长度的序列。
PolyFormer中任意浮点坐标的特征嵌入是通过其相邻索引嵌入的双线性内插得到的，这与通常的做法不同，在这种做法中，坐标要素是从具有固定数量的离散坐标面元的词典中索引的。这些更改使我们的PolyFormer能够做出准确的面和边界框预测。

3.主要贡献

介绍了一种新的RIS和ETC框架，成为PolyFormer,它将它们描述为一个序列到序列预测问题，由于它的灵活性，它可以自然地将多通道特征融合在一起作为输入，并生成一系列多变形顶点和边框角点。
在这个框架中，我们提出了一个基于回归的解码器来进行精确的坐标预测，它可以直接输出连续的2D坐标，而不会产生量化误差，据我们所知，这是在seq2seq框架中将几何局部化描述为回归任务的第一项工作，而不是在…中那样的分类。
我们首次证明了基于多边形的方法在所有三个主要参考图像分割基准上都超过基于掩码的方法，并且也可以很好地推广到未知的场景，包括视频和合成数据。

4.模型结构图

在这里插入图片描述

5 方法

5.1整体结构

首先使用视觉编码器和文本编码器分别提取图像和文本特征，然后将其投影到共享的嵌入空间中，接下来，将图像和文本特征连接在一起，并将它们提供给多模式转换器编码器，最后基于回归的变换解码器提取编码后的特征，以自回归的方式输出连续的浮点包围盒角点和多边形顶点，分割蒙版被生成为多边形包围的区域。

5.2 目标序列构建

多边形表示法：使用勾勒对象的一个或者多个多边形来描述分割蒙版，将一个多边形参数化为一个2D顶点序列〖{(x_i,y_i )}〗_(i=1)^{K},(x_i,y_i)∈R}2,按时钟顺序排列，我们选择最接近图像左上角的顶点作为序列的起点。
顶点和特殊标记：对于多边形的每一个顶点坐标x或者y，前人工作是将其统一量化为介于[1，B]之间的整数，其中B∈N是坐标码本的位数。相反，作者保持原始x或者y坐标的连续浮点值，而不进行任何量化，为了表示多个多边形，在两个多边形之间引入了一个分隔符标记。根据起点和图像原点之间的距离对同一对象中的多边形进行排序。最后使用和标记来表示序列的开始和结束。
在这里插入图片描述
带边界框的统一序列：边界框由两个角点表示，即左上角(x_1^b,y_1b)和右下角(x_2^b,y_2b ),
边界框和多个多边形的坐标可以连接在一起，形成一个长的序列，如下所示：

(x_1^n,y_1n)是第n个多边形的起始顶点。一般来说，边界框角点和多边形顶点被视为坐标标记

5.3图像和文本特征提取

输入由图像I和指代表达式T组成。
图像编码器：对于输入图像I∈R^{(H×W×3),我们使用Swin变换从第四阶段提取特征作为视觉表示F_v∈R}(H/32×W/32×C_v )。
文本编码器：给定带有L词语言描述的T∈R^{L，使用BERT语言嵌入模型来提取词特征F_l∈R}(L×C_l )。
多模可变压编码器：为了融合图像和文本特征，将F_v展平为一系列视觉特征的
〖F_v〗^'∈R(H/32×W/32×C_v ) ，并将F_v^'和F_l投影到具有完全连接的层的相同嵌入空间中。
在这里插入图片描述

另外为了保存位置信息，将绝对位置编码添加到图像和文本特征，此外，我们还对图像和文本特征分别添加了一维和二维相对位置偏差。
在这里插入图片描述

5.4 基于回归的Transformer解码器

5.4.1 二维嵌入坐标

建立一组2D代码薄D∈R^(B_H×B_W×C_e ),其中B_H和B_W分别为沿着高度和宽度方向的格子数量，然后利用双线性插值的方式就可以得到任意浮点型坐标(x,y)∈R^{2:首先利用(x,y)产生四个格子:(▁x,¯y),(¯x,▁y),(▁x,▁y),(¯x,¯y)∈N}2,相应的索引从D里面取出：e_((▁x,▁y))=D(▁x,▁y),然后通过双线性插值得到精确的坐标embedding e_((x,y)):
在这里插入图片描述

5.4.2 Transformer解码器

为了捕捉多峰特征F、N、M二维坐标嵌入e_((x,y) )
之间的关系，引入N个transformer编码层。每个transformer层由多头自关注层、多头交叉关注层和前馈网络组成。

5.4.3 预测头

预测头由分类头和坐标头组成，输入为编码器最后一层的输出，分类是一个单层线性层，输出token类型（、、: ,其中Wc和bc为线性层的参数。
坐标头部是一个三层前馈网络(FFN)，除了最后一层外，它还具有RELU激活功能。它预测参考对象边界框角点和多边形顶点的二维坐标：
在这里插入图片描述

5.5 训练

5.5.1多边形增强

多边形是密集对象轮廓的稀疏表示。给定密集的等高线，稀疏多边形的生成通常不是唯一的。鉴于这一性质，我们引入了一种简单而有效的增强技术来增加多边形的多样性。如图5所示，密集的轮廓首先从原始多边形内插。然后，使用从固定范围随机采样的间隔进行均匀下采样，以生成稀疏多边形。这将在不同的粒度级别创建不同的多边形，并防止模型过度适应固定的多边形表示。

5.5.2 目标

模型来训练并预测下一个token及其类型：在这里插入图片描述

5.5.3 推理

在推理过程中，我们通过输入标记开始生成。首先，我们从类头获取令牌类型。如果它是一个坐标标记，我们将根据前面的预测条件从坐标头部获得2D坐标预测；如果它是一个分隔符标记，它指示前面的多边形的结束，所以分隔符标记将被添加到输出序列中。输出后，该顺序预测将停止。在生成的序列中，前两个标记是边界框坐标，其余是多边形顶点。从多边形预测中获得最终的分割掩码。

6.总结/讨论

在这项工作中，我们提出了PolyFormer，一个简单而统一的框架，用于参考图像分割和参考表情理解。它是一个序列到序列的框架，可以自然地融合多模式特征作为输入序列，将多任务预测作为输出序列。此外，我们设计了一种新的基于回归的解码器来生成连续的2D坐标，而不存在量化误差。PolyFormer在RIS和REC上取得了具有竞争力的结果，并对未知场景显示出良好的泛化能力。我们相信这个简单的框架可以扩展到RIS和REC之外的其他任务。