解决参考图像分割中的随机性问题：MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

乄洛尘

已于 2023-06-02 15:55:47 修改

阅读量1.2k

点赞数

分类专栏： RIS_REC 文章标签：论文阅读笔记计算机视觉

于 2023-06-01 22:07:10 首次发布

本文链接：https://blog.csdn.net/qq_38929105/article/details/130990590

版权

RIS_REC 专栏收录该内容

31 篇文章 36 订阅

订阅专栏

解决参考图像分割中的随机性问题：MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

一、Abstract
二、引言
三、相关工作
- Referring Image Segmentation
- Vision-Language Pretraining
四、方法
五、实验
六、可视化
七、结论

写在前面

今天六一儿童节，祝大家节日快乐吖！
这是一篇关于 RIS 参考图像分割的论文，指出 RIS 中的语言和图像存在随机性的问题，观点比较新，虽并未发表在顶会，其方法也不是特别出彩，但论文的立意还是蛮好的。

论文地址：https://arxiv.org/abs/2305.14969
代码地址：无
收录于：加拿大渥太华召开的某个会议
PS：2023 每周一篇博文，主页更多干货，欢迎关注呀，期待 4 千粉丝有你呦~

一、Abstract

首先指出 Referring image segmentation（RIS）的定义，表明难点在于目标的类别的多样性以及表达式的无约束性。之前的方法主要关注于跨模态的特征对齐而未能解决这种固有的随机性问题。本文提出基于 CLIP 的 Multi-Mask Network（MMNet）：首先联合图像和语言，利用注意力机制生成能够表示不同侧重点的多个语言表达式 queries；然后利用这些 queries 生成一系列相应的 masks，并依据重要性程度打分；最后对所有 masks 进行权重求和得到最终的结果。在 RefCOCO、RefCOCO+、G-Ref 上表现很好。

二、引言

RIS 的应用和挑战：图文之间存在明显的数据差异，很难有效对齐；广泛的目标类别和未受限的语言表达式，高度随机性。
早期的方法关注于图像和文本的融合。后来随着注意力机制兴起，大量的方法用来学习跨模态特征。再之后，大规模预训练模型上场。但这些都没能完全解决图文随机性问题。

在这里插入图片描述
如上图所示，随机性主要源于两个方面：（1）语句本身的混乱，即一个单词在不同的语境中可以表示不同的含义；（2）强调的侧重点不同。于是需要结合图片来解决随机性问题。
本文通过生成一些列的分割 masks，最后结合这些 masks 来得到最终的结果。

在这里插入图片描述
如上图所示，首先基于语言表达式来生成多个 queries。不同于 VLT，本文为每个 query 生成一个相应的 mask，最后通过整合所有的 masks 得到最终的结果。此外，利用 CLLP 模型来提取丰富的视觉-语言知识。本文贡献总结如下：

提出 Multi-Mask Network(MMNet) 来生成多个 mask，并利用这些 mask 得到最终的结果，从而解决随机性的问题；
充分利用 CLIP 模型提取细粒度的和全局的视觉信息从而提高性能；
在 RefCOCO、RefCOCO、G-Ref 上表现很好。

三、相关工作

Referring Image Segmentation

早期的文献首先通过 CNN 和 LSTM 分别提取视觉和语言特征，然后直接拼接进行分类，得到最终的分割结果。一些方法设计出能够同时处理 RIS 和 REC 的网络。之后就是注意力机制的兴起：BRINet、LAVT、VLT、CRIS。然而这些方法主要关注于如何提升特征融合的有效性，但未能解决大量目标以及语言表达式不受限造成的随机性问题。

Vision-Language Pretraining

视觉-语言预训练旨在学习视觉和文本信息的共同表示。CLIP 是其中的里程碑式工作。CRIS 旨在迁移图像级的视觉概念到 RIS 上。然而 CRIS 仅关注于细粒度的视觉表示而忽视了全局视觉信息，恰好这是 CLIP 所擅长的。相比之下，本文提出的方法也利用了 CLIP 模型，但同时关注于细粒度的和全局的视觉信息。

四、方法

在这里插入图片描述
首先采用图像和语言表达式作为输入，利用 ResNet/ViT 和一个 Transformer 来提取图像和文本特征以及它们的全局特征。之后全局文本特征和视觉特征进行融合来得到简易的多模态特征。然后在 Multi-Query Generator 中利用全局视觉特征，patch 特征，文本特征来产生多个 queries。接着产生的多个 queries 和多模态特征一起送入到视觉-语言解码器中。解码器的输出和生成的 queries 作为 Multi-Mask Projector 的输入来产生多个 masks。同时 Multi-Query Estimator 利用生成的 queries 来决定每个 mask 的权重。最终使用这些 masks 及相应的权重来进行权重求和，从而得到最终的预测结果。

4.1 图像文本特征提取

文本编码器

给定一个语言表达式 $T\in \mathbb R^L$ ，利用一个 Transformer 得到文本特征 $F_t\in \mathbb R^{L\times C}$ 。接下来沿着 CLIP 的方法，使用字节对编码 [SOS] 开始这段序列，用 [EOS] 表示序列的结束。类似于 CRIS，采用Transformer 最高激活层的 [EOS] token 作为整个表达式的全局特征。这一特征之后用全连接层转化为 $F_{tg}\in\mathbb R^{C^{\prime}}$ ，其中 $C$ 、 $C^\prime$ 为特征维度， $L$ 为语言表达式的长度。

图像编码器

给定图像 $I\in\mathbb R^{H\times W\times3}$ ，利用 ResNet 来提取第二和第三阶段的特征 $X_2\in\mathbb R^{H_2\times W_2\times C}$ ， $X_3\in\mathbb R^{H_3\times W_3\times C}$ 。利用线性全连接层改变其通道数 $X_2\in\mathbb R^{H_2\times W_2\times C_2}$ ， $X_3\in\mathbb R^{H_3\times W_3\times C_3}$ 。在第四个阶段，除常规特征 $X_4\in\mathbb R^{H_4\times W_4\times C_4}$ 外，还利用全局平均池化得到全局特征 $\overline X_4 \in\mathbb R^C$ 。之后拼接特征 $[\overline X_4,X_4]$ ，并将其送入到多头自注意力层：
$[\overline{\text{z}},\text{z}]=M H S A([\overline{\text{x}}_4,\text{x}_4])$ 之后利用一个全连接层将 $\text{z}$ 、 $\overline{\text{x}}$ 分别转化为 $F_{v4}\in\mathbb{R}^{H_{4}\times W_{4}\times C_{4}}$ 和 $F_{vg}\in\mathbb{R}^{C_{4}}$ 。

Fusion Neck

在融合模块中，使用下列式子融合 $F_{v4}$ 和 $F_{vg}$ ，得到 $F_{m4}\in\mathbb R^{H_3\times W_3\times C}$ ：
$F_{m4}=Up\left(\sigma\left(F_{v4}W_{v4}\right)\cdot\sigma\left(F_{tg}W_{tg}\right)\right)$ 其中 $Up(\cdot)$ 表示 2 倍上采样， $\cdot$ 为逐元素点乘操作， $W_{v4}$ 和 $W_{tg}$ 为全连接层的权重， $\sigma$ 为 ReLU 激活函数。同样使用相同的步骤得到 $F_{m3}$ 和 $F_{m2}$ ：
$\begin{aligned} &F_{m_{3}} =\left[\sigma\left(F_{m_4}W_{m_4}\right),\sigma\left(F_{v_3}W_{v_3}\right)\right] \\ &F_{m_{2}} =\left[\sigma\left(F_{m_{3}}W_{m_{3}}\right),\sigma\left(F_{v_{2}}^{\prime}W_{v_{2}}\right)\right],F_{v_{2}}^{\prime}=A v g\left(F_{v_{2}}\right) \end{aligned}$ 其中 $g(\cdot)$ 为 $2\times2$ 的平均池化操作， $[,]$ 为拼接操作。接下来，拼接多模态特征 $F_{m_{4}},F_{m_{3}},F_{m_{2}})$ ，并用 1 个 $1\times1$ 卷积层来聚合：
$F_m=Cono\left(\left[F_{m_2},F_{m_3},F_{m_4}\right]\right)$ 其中 $F_m\in\mathbb R^{H_3\times W_3\times C}$ ，得其 2D 坐标 $F_{coord}\in\mathbb R^{H_3\times W_3\times 2}$ ，与 $F_{m}$ 拼接并展平得到融合全局文本信息的视觉特征 $F_{vt}\in\mathbb R^{N\times C}$ ， $N=H_3\times W_3=\frac{H}{16}\times\frac{W}{16}$ 。与 ViT 类似，直接提取类别 token 作为全局视觉特征，然后分别使用三个卷积层得到三个特征，其特征通道维度与 $F_{v2}$ 、 $F_{v3}$ 、 $F_{v4}$ 相同。

4.2 Multi-Query Generator

Multi-Query Generator 采用多阶段视觉特征 $\{F_{vi}\}^4_{i=2}$ 、全局视觉特征 $F_{vg}$ 、文本特征 $F_t$ 作为输入，输出一系列的 queries。

Dense Visual Features

通过下列步骤获得稠密的视觉特征：
$\begin{aligned} &F_{m_4}'=Up\left(\sigma\left(F_{v4}W_{a4}'\right)\right) \\ & \\ &F_{m_{3}}^{\prime}=\left[\sigma\left(F_{m_{4}}^{\prime}W_{m_{4}}^{\prime}\right),\sigma\left(F_{v_{3}}W_{v_{3}}^{\prime}\right)\right] \\ &F_{m_{2}}^{\prime}=\left[\sigma\left(F_{m_{3}}^{\prime}W_{m_{3}}^{\prime}\right),\sigma\left(F_{v_{2}}^{\prime}W_{v_{2}}^{\prime}\right)\right],F_{v_{2}}^{\prime\prime}=A o g\left(F_{v_{2}}\right) \\ &F_{m}^{\prime}=C o n v\left(\left[F_{m2}^{\prime},F_{m3}^{\prime},F_{m4}^{\prime}\right]\right),F_{v}^{\prime}=C o n v\left(\left[F_{m}^{\prime},F_{c o o r d}\right]\right) \end{aligned}$ 与 Fusion Neck 不同之处在于 $F_{vd}$ 并未整合全局文本信息。

接下来应用三个卷积层来减少其特征通道维度到 $N_q$ ，之后展平宽度和高度：
$F_{vd}=flatten\left(Conv\left(F_v'\right)\right)^T$ 于是 $F_{vd}\in\mathbb R^{N_q\times H_3W_3}$ 。

Fused textual features

利用下列等式融合文本特征和全局视觉特征：
$F_{tv}=\sigma\left(F_tW_t\right)\cdot\sigma\left(F_{vg}W_{vg}\right)$ 其中 $F_{tv}\in\mathbb R^{L\times C}$ ， $W_t$ 、 $W_{vg}$ 为可学习的矩阵。

Multi-Query Generation

首先在 $F_{vd}$ 和 $F_{tv}$ 上应用线性投影，然后对第 $n$ 个 query ( $n=1,2,\dots,N_q$ )，第 $n$ 个稠密的视觉特征向量 $f_{vdn}\in\mathbb R^{1\times(H_3W_3)}$ 以及第 $i$ ( $i=1,2,\dots,L$ ) 个单词的文本特征 $f_{tvi}\in\mathbb R^{1\times C}$ ，通过计算 $f_{vdn}$ 和 $f_{tvi}$ 的点乘投影得到第 $i$ 个单词与 $n$ 个 query 的注意力权重：
$a_{ni}=\sigma\left(f_{vdn}W_{od}\right)\sigma\left(f_{tot}W_{a}\right)^{T}$ 其中 $a_{ni}$ 表示衡量第 $i$ 个单词与 $n$ 个 query 的重要性的标量， $W_{od}$ 、 $W_{a}$ 为可学习的矩阵。之后采用 Softmax 处理 $a_{ni}$ ，从而形成注意力图 $A\in\mathbb R^{N_q\times L}$ 。对于第 $n$ 个 query，对应的重要性程度为 $A_n\in\mathbb R_{1\times L}$ ( $n=1,2,\dots,N_q$ )，而 $A_n$ 则用于生成新的 queries：
$F_{qn}=A_n\sigma\left(F_{tv}W_{tv}\right)$ 其中 $W_{tv}$ 为可学习的参数。所有的 queries 组成新的语言矩阵 $F_q\in\mathbb R^{N_q\times C}$ ，作为视觉-语言解码器的输入。

4.3 视觉-语言解码器

将 query 向量 $F_q$ 和融合的视觉特征 $F_{vt}$ 作为输入，并加上空间位置信息。解码器结构采用标准的 Transformer，流程如下：
$F_{vt}'=MHSA\left(LN\left(F_{vt}\right)\right)+F_{ut}'$ 其中 $F_{vt}'$ 为视觉特征， $MHSA(\cdot)$ 和 $LN(\cdot)$ 表示多头自注意力层和归一化层。
$MHSA\left(Q,K,V\right)=softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)$ 其中 $Q\in\mathbb R^{N\times d_q}$ 为 $F_{vt}'$ 的投影、 $K\in\mathbb R^{N\times d_k}$ 和 $V\in\mathbb R^{N\times d_v}$ 是 $F_q$ 的投影。后续处理：
$\begin{aligned} &F_{s}^{\prime} =MHCA\left(LN\left(F'_{vt}\right),F_q\right)+F'_{vt} \\ &F_{s} =MLP\left(LN\left(F_S'\right)\right)+F_S' \end{aligned}$ 其中 $MHCA(\cdot)$ 为多头交叉注意力层， $F_S'$ 为中间特征，多模态特征 $F_s$ 用于产生最后的分割 mask。

4.4 Mask 解码器

Multi-Mask Projector

Multi-Mask Projector 以多模态特征 $F_s$ 和 query 向量 $F_q$ 为输入。从 $F_q$ 中提取 $F_{qn}$ ，在 $F_s$ 的作用下生成 mask。接下来采用动态卷积生成 $F_{qn}$ ：
$\begin{aligned} &F_{p}=U p(C o n v(U p(F_{s}))) \\ &F_{p n}=\sigma(W_{p}F_{q n}) \end{aligned}$ 其中 $F_s$ 上采样和卷积到 $F_p\in\mathbb R^{4H_3\times4W_3\times C_p}$ ， $C_p=\frac{C}{2}$ 。之后利用线性层将 $F_{qn}$ 变为 $F_{pn}\in\mathbb R^{9C_p+1}$ 。采用向量 $F_{pn}$ 中第一个 $9C_p$ 值作为 $3\times3$ 卷积核的参数，通道数量为 $C_p$ ， $F_{pn}$ 的最后一个值为偏置。之后利用卷积从第 $n$ 个query $F_{qn}$ 中得到 mask，表示为 $mask_n\in\mathbb R^{4H_3\times4W_3\times1}$ 。

Multi-Query Estimator

Multi-Query Estimator 采用 query 向量 $F_q$ 作为输入，输出 $N_q$ 得分，每个得分表明 query $F_{qn}$ 拟合预测上下文的程度，并控制相应的 $mask_n$ 。用公式表示如下：
$S_q=Softmax(W_s(MHSA(F_q)))$ 其中 $S_q\in\mathbb R^{N_q\times1}$ 。于是最终的预测结果为 Multi-Mask Generator 输出的 mask 与 Multi-Query Estimator 输出的得分进行权重求和：
$y=\sum_{n=1}^{N_q}S_{qn}mask_n$ 其中 $S_{qn}$ 为 $S_q$ 的第 $n$ 个标量， $y$ 表示最终的预测 mask。模型采用 cross-entropy 损失进行优化。

五、实验

5.1 实施细节

实验设置

ResNet-101、ViT 作为图像编码器，输入图像尺寸 $480\times480$ ，RefCOCO 和
RefCOCO+ 设置句子长度为 17，G-Ref 22。每个 Transformer 块有 8 个头，隐藏层维度 512，前向传播维度 2048。100 epochs，Adam 优化器，初始学习率 $l r = 1 e - 5$ ，多项式衰减策略。batch 64，8 块 3090。
指标：IoU、Precision@X。