Learning What to Learn for Video Object Segmentation

最新推荐文章于 2021-06-18 09:32:50 发布

ArtemisiaW

最新推荐文章于 2021-06-18 09:32:50 发布

阅读量1k

点赞数 6

分类专栏： eccv2020-VOS

本文链接：https://blog.csdn.net/weixin_37669628/article/details/107936909

版权

eccv2020-VOS 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Learning What to Learn for Video Object Segmentation

摘要
引言
相关工作
方法
实验

摘要

我们的端到端可训练VOS结构集成了一个可微分小样本学习（differential few-shot learning）模块。

这个内部学习器旨在通过最小化第一帧中的分割误差来预测目标的参数模型。

我们的方法学习小样本学习器应该学习什么。这能够在当前帧中获得目标更丰富的内在表示（？希望有可视化解释）

代码

引言

我们的工作解决了VOS的关键问题：

如何捕获视频参考帧中稀缺的目标信息。

现有方法

特征匹配技术

Hu, Y.T., Huang, J.B., Schwing, A.G.: Videomatch: Matching based video object segmentation. In: European Conference on Computer Vision. pp. 56{73. Springer (2018)
Johnander, J., Danelljan, M., Brissman, E., Khan, F.S., Felsberg, M.: A generative appearance model for end-to-end video object segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2019)
Voigtlaender, P., Leibe, B.: Feelvos: Fast end-to-end embedding learning for video object segmentation. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2019)
Oh, S.W., Lee, J.Y., Xu, N., Kim, S.J.: Video object segmentation using space-time memory networks. Proceedings of the IEEE International Conference on Computer Vision (2019)

将参考帧与新图像进行比较

优点：特征特征匹配层效率和差异性很高。这样可以设计出完全端到端可训练结构。

缺点：特征匹配方法需要强大且通用的特征嵌入，在某些有挑战性的场景下会受到限制。

我们的方法

我们提出了一种在密集参数模型中捕获目标对象信息的方法。

我们集成了一个可微分小样本学习器模块，该模块使用参考帧标记来预测目标模型的参数。

我们的学习器旨在最小化目标模型预测和真实标记之间的误差。

给定一个新的帧，我们的目标模型预测目标掩码的一个中间表示，这个中间表示被输入分割解码器来生成最终的预测结果。

通过使用一个高效的、可微分的小样本学习器，我们的方法可以使用有限的标记来学习到一个鲁棒的、端到端可训练的目标模型。

该内部小样本学习器应该学习什么？基于标准优化方法的小样本学习器会强制目标模型仅生成一个对象掩码的输出，这样非常困难。且这种方法将信息限制为单通道掩码，信息量不够丰富。
因此，我们的方法学习小样本学习器应该学习什么，即，我们学习输入小样本学习器（用来生成目标模型）的真实标签。这使得我们的微分网络能学习更丰富的目标表示（因为更深层次了嘛？），该表示由学习器编码，在新的帧中由目标模型预测。
进一步的，为了使学习器专注于目标最重要的部分，我们也学习为小样本学习损失中的不同元素预测空间重要性权重。
由于我们基于优化的学习器是可微分的，网络结构中的所有模块都可以被端到端训练。

网络结构

网络结构
给定带注释的第一帧，我们的小样本学习器构建一个目标模型（Target Model），该目标模型输出目标掩码的编码（Mask Encoding）。
然后，该掩码编码被输入分割解码器（Segmentation Decoder），生成最终的分割结果。

网络创新点

提出了一种新的VOS结构，基于一种基于优化的小样本学习器。
我们学习小样本学习器应该学习什么来最大化分割精确度。
我们的学习器以一种可微分的方式预测目标模型参数，使得网络结构可以被端到端训练。
我们利用学到的掩膜表示来设计一个轻权重边界框初始化模块，允许我们的方法在弱监督设定中生成目标分割掩膜。

方法

VOS的小样本学习

我们首先考虑一个VOS结构的通用类，公式为 $S_\theta (I,T_\tau(I))$ 。
其中：

$\theta$ 表示可学习参数。
$S_\theta$ 表示网络。
$I$ 是当前的图像。
$T_\tau$ 是目标模型模块。

网络 $S_\theta$ 本身是目标无关的，它依赖于 $T_\tau$ 。
对象模块 $T_\tau$ 对目标对象的信息进行编码， $\tau$ 是它的参数。
$T_\tau$ 生成一个目标相关的输出，这个输出被 $S_\theta$ 用于预测最终的分割结果。
目标模型的参数 $\tau$ 从初始图像 $I_0$ 和它的掩码 $y_0$ 中获得，这两者定义了目标对象。该过程我们用一个函数表示： $\tau=A_\theta(I_0,y_0)$ 。

VOS的关键问题：如何定义 $T_\tau$ 和 $A_\theta$ 。

自然地， $A_\theta$ 是一个小样本学习问题。
我们的目标是找到使得监督学习目标 $\ell$ 最小的目标模型参数 $\tau$ 。
$\tau=A_\theta(x_0,y_0)= \mathop{\textup{arg\ min}}\limits_{\tau'} \ell(T_{\tau'}(x_0),y_0)$

目标模块 $T_\tau$ 学习输出初始帧中目标对象的分割结果。
通常，我们运用输入图像的深度表示 $F_\theta(I)$ ，该深度表示由一个深度神经网络（例如ResNet）结构获得。

在测试过程中，给定一个新的帧 $I$ ，目标的分割结果是 $S_\theta(I,T_\tau(F_\theta(I)))$ 。
换言之，目标模块先使用新帧生成一个初始的分割结果。
这个初始分割结果之后被 $S_\theta$ 微调。 $S_\theta$ 进一步集成了大量的VOS数据集的预训练知识。

我们希望 $A_\theta$ 是鲁棒的、高效的、可微分的。

Learning What to Learn

在我们的方法中，目标模块 $T_\tau$ 根据参考帧生成当前帧的一个初始的分割结果。然后 $S_\theta$ 对这个分割结果进行微调，（ $S_\theta$ 中包含了离线学习到的强分割先验）。

$S_\theta$ 不仅仅只输入一个粗略的分割掩膜，它希望能利用更多可获得的信息。因此，只生成一个单通道掩膜限制了能传递给分割网络 $S_\theta$ 的有关目标的信息量。同时，内部小样本学习器 $A_\theta$ 也很难生成一个能够得到物体完整分割结果的目标模型 $T_\tau$ 。
理想情况下，在当前帧，目标模型应当预测目标的一个丰富的表示。但当目标模块的标准输出是真实掩膜 $y_0$ 时，显然无法满足我们的要求。

因此这一章中，我们解决内部小样本应该学习什么的问题。

我们没有直接使用参考帧的掩膜 $y_0$ 作为小样本学习器的真实标记，而是使用一个可训练的卷积神经网络 $E_\theta(y)$ 来学习这个真实标记。该网络使用真实标记掩膜作为输入，输出供小样本学习器使用的真实标记。
目标模型如下：
$\tau=A_\theta(x_0,y_0) = \mathop{\textup{arg\ min}}\limits_{\tau'} \ell(T_{\tau'}(x_0),E_\theta(y_0))$

编码过后的真实标记 $E_\theta(y_0)$ 可以是多维的。这允许目标模块 $T_\tau$ 预测一个更丰富的目标表示形式，为分割网络提供更多的信息。

虽然标签生成器 $E_\theta$ 预测了小样本学习器应该学习什么，但它并没有解决训练集中训练数据不平衡的问题。例如，也许 $E_\theta(y)$ 中的一个通道对目标物体的边界进行了编码。但图像中只有一小部分像素属于物体边界，很难训练得到这样一个模型。
我们提出一个权重预测器（weight predictor） $W_\theta(y)$ 来解决这个问题。
类似于 $E_\theta$ ，它包括一个卷积神经网络，以真实标记掩膜 $y$ 作为输入。
这个模块为损失 $\ell(T_{\tau}(x_0),E_\theta(y_0)$ 中的每个元素预测其重要性权重。因此它的输出的维度与 $T_{\tau}$ 和 $E_\theta$ 相同。
权重预测器可以帮助小样本学习器专注于真实标记 $E_\theta(y)$ 中更重要的部分。

那么如何训练真实标签生成网络 $E_\theta$ 和权重预测器 $W_\theta$ 呢？
我们希望能够在VOS数据集上端到端地训练我们的分割结构中的所有参数 $\theta$ 。这样，我们可以反向传播某一测试帧 $I_t$ 上最终分割输出 $\tilde{y}_t = S_\theta(I_t, T_\tau(F_\theta(I_t)))$ 和真实标记 $y_t$ 之间的误差。
这就需要我们的内部学习器都可微，下一章将介绍这一点。

内部学习器

在这个章节，我们详解目标模块 $T_\tau$ 和内部小样本学习器 $A_\theta$ 。

目标模块 $T_\tau$

目标模块 $T_\tau:\mathbb{R}^{H\times W \times C}\rightarrow\mathbb{R}^{H\times W \times D}$ ，将一个C维的深度特征表示映射到一个D维的目标相关的编码（原有的空间维度 $H\times W$ 不变）。

我们使用一个线性目标模块 $T_\tau(x) = x * \tau$ ，其中， $\tau \in \mathbb{R}^{K \times K \times C \times D}$ 是一个卷积核大小为 $K$ 的卷积层的权重。

该目标模块是线性的，并且直接在高维深度表示上进行操作，它能够获得目标掩膜更强大的编码结果，从而提升分割性能。

如果目标模块的网络结构更复杂，很可能导致过拟合或训练效率低。

内部小样本学习器 $A_\theta$

内部学习器的目标是最小化目标模块 $T_\tau(x)$ 的输出和生成的真实标签 $E_\theta(y)$ 之间的加权均方误差，权重矩阵 $W_\theta(y_t)$ 度量了图片中每个元素的重要性。

$L(\tau)=\frac12 \sum_{(x_t,y_t)\in \mathcal{D}} ||W_\theta(y_t)\cdot(T_\tau(x_t)-E_\theta(y_t)||^2 + \frac\lambda2||\tau||^2$

其中， $\mathcal{D}$ 是内部学习器的小样本训练集，通常只包含一个参考帧，这样设计使得我们的学习器在有新的参考帧被添加时也能够使用。
标量 $\lambda$ 是一个正则化参数。

$\tau = A_\theta(\mathcal{D}) = \arg\min_{\tau'}L(\tau')$

均方误差是一个凸二次目标函数，有闭式解，通常以原始形式或对偶形式给出。但这两种方式都需要复杂的计算（大量矩阵乘法和线性系统求解）。且这种方法不能直接利用卷积结构。

因此，我们使用最陡峭下降迭代来寻找 $L(\tau)$ 的近似解。
对于当前的估计 $\tau^i$ ，我们计算在梯度方向上使得损失最小的步长 $\alpha^i$ ， $\alpha^i =\arg\min_\alpha L(\tau^i-\alpha g^i)$ 。其中， $g^i = \nabla L(\tau^i)$ 是损失函数 $L(\tau)$ 在当前估计 $\tau^i$ 上的梯度。
优化迭代公式如下：

$\begin{aligned} \tau^{i+1} = \tau^i - \alpha^i g^i,\ \ \ \ & \alpha^i = \frac{||g^i||^2}{\sum_t||W_\theta(y_t)\cdot(x_t*g^i)||^2+\lambda||g^i||^2},\\ & g^i = \sum_tx_t *^T(W_\theta^2(y_t)\cdot(x_t*\tau^i-E_\theta(y_t)))+\lambda\tau^i \end{aligned}$

其中， $^T$ 表示反卷积操作。

所有的计算都可以用标准神经网络操作完成，且可微分。
因此，目标模型的参数 $\tau^i$ 在经过 $i$ 轮迭代后，对于整个神经网络参数 $\theta$ 是可微分的。

因此，内部小样本学习器可以用一个神经网络模块表示， $A_\theta(\mathcal{D},\tau^0)=\tau^N$ ， $\tau^0$ 是输入的初始 $\tau$ ，迭代进行N次最陡峭下降。（？是RNN吗）

优点：

由于最陡峭下降收敛很快，所以迭代次数 $N$ 是有限的。
当有新的参考帧被加入时，可以直接将该帧加入 $\mathcal{D}$ ，然后直接将当前的参数 $\tau$ 作为初始参数 $\tau_0$ 开始新的训练。

VOS结构

运行流程

我们的VOS结构如上图所示，运行流程如下

小样本学习器：包含一个神经网络模块，根据初始参考帧的信息生成 目标模型 $T_\tau$ 的参数 $\tau$ 。
- 参考帧的图片经过 特征提取器（卷积神经网络） $F_\theta$ 生成 特征图 输入小样本学习器。
- 参考帧的掩膜经过 标签生成器（卷积神经网络） $E_\theta$ 生成 真实标记 输入小样本学习器。
- 参考帧的掩膜经过 权重预测器（卷积神经网络） $W_\theta$ 生成 重要性权重 输入小样本学习器。
- 其中，真实标记 和 重要性权重 有着相同的维度大小。
后续的每一张测试帧图片
- 经过输入 特征提取器（卷积神经网络） $F_\theta$ 生成 特征图。
- 然后，特征图 被输入 目标模块 ，输出当前帧的 掩膜编码。
- 最后 掩膜编码 被输入 解码模块（卷积神经网络） $D_\theta$ ，在 特征图 的辅助下，输出最终的 输出掩膜。

模块介绍

包括6个模块：

深度特征提取器 $F_\theta$
标签生成器 $E_\theta$
损失权重预测器 $W_\theta$
目标模块 $T_\tau$
小样本学习器 $A_\theta$
分割解码器 $D_\theta$

$\theta$ 是离线训练是的网络参数。
$\tau$ 是小样本学习器 $A_\theta$ 生成的目标模型参数。

深度特征提取器 $F_\theta$

使用ResNet50 作为backbone。

$F_\theta$ 的输出被同时输入解码模块 $D_\theta$ 和目标模块 $T_\tau$ 。

对于目标模块 $T_\tau$ ，我们使用第三个残差块（？），这个残差块的空间步长 $s = 16$ 。
这些特征先通过一个额外的卷积层，将维度降到 $C = 512$ ，然后再输入 $T_\tau$ 。

小样本标签生成器 $E_\theta$

真实标签生成器 $E_\theta$ 从目标掩码中提取足够的有效视觉信息，生成掩码的丰富表示。
只以掩码作为输入的话能生成多丰富的表示啊？是不是可以添加图片信息辅助？
生成的真实标签需要与深度特征提取器的输出一一对应。
$E_\theta:\mathbb{R}^{sH\times sW \times 1} \rightarrow \mathbb{R}^{H\times W \times D}$ 其中， $H$ 、 $W$ 和 $D$ 分别为目标模型特征的长、宽和维度数（通道数）。 $s$ 为特征提取器的步长。
网络的执行过程中， 标签生成器 $E_\theta$ 使用 CNN，作为一个通用的掩码特征提取器。对原始掩码 $y$ 进行特征提取，然后使用一个预测层生成最终的标签编码。

附录B.1

权重预测器 $W_\theta$

权重预测器 $W_\theta:\mathbb{R}^{sH\times sW \times 1} \rightarrow \mathbb{R}^{H\times W \times D}$ ，为内部学习器的损失函数计算权重。

权重预测器是一个卷积网络。
输入为目标掩码 $y$ 。

算法执行时， $W_\theta$ 和 $E_\theta$ 共用一个掩膜特征提取器，之后额外添加一个单独的卷积层，对提取出的掩膜特征图进行预测，以获得权重矩阵。

目标模块 $T_\tau$ 和小样本学习器 $A_\theta$

目标模块 $T_\tau$ 是一个卷积核大小为3的卷积滤波器。
输出通道为16。

小样本学习器 $A_\theta$ 通过最陡峭下降迭代，预测目标模块的参数 $\tau$ 。

在序列的第一帧，我们使用0初始化， $\tau_0=0$ 。
在后续的测试帧上，我们使用预测出的目标模型参数 $T_\tau(x)$ ，来预测掩膜编码，以输入分割解码器。

分割解码器 $D_\theta$

这个模块使用目标模块 $T_\tau$ 的输出和特征提取器 $F_\theta$ 生成的特征图来预测最终准确的分割掩膜。

我们的方法可以与任何解码器结构结合。

本文为了方便，使用了与[28]Learning fast and robust target models for video object segmentation中相似的解码器网络，对输入的多通道目标掩膜编码进行处理。

附录B.2

推断 Inference

给定一个测试序列 $\mathcal{V}=\{I_t\}^Q_{t=0}$ ，以及第一帧的标记 $y_0$ 。

为小样本学习器创造一个初始的训练集 $\mathcal{D}_0=\{(x_0,y_0)\}$ 。
其中， $x_0=F_\theta(I_0)$ 是第一帧提取出的特征图。
小样本学习器通过最小化内部损失 $L(\tau)$ ，为目标模型预测其参数 $\tau_0 = A_\theta(\mathcal{D}_0,\tau^0)$ 。
目标模型的初始参数被设置为全0， $\tau^0=0$ 。
后续测试序列的第一帧 $I_1$ 被输入学习到的模型 $T_{\tau_0}$ ，输出该帧分割掩膜的编码 $T_{\tau_0}(x_1)$ 。这个掩膜编码和图片特征被输入解码器模块，输出预测掩膜 $\tilde{y}_1=D_\theta(x_1,T_{\tau_0}(x_1))$ 。
为了适应场景中的变化，我们使用后续帧的预测结果调整我们的目标模型。我们将预测掩膜 $\tilde{y}_1$ 作为第一帧 $I_1$ 的伪标签，将新的训练样本 $(x_1, \tilde{y}_1)$ 加入到小样本训练集 $\mathcal{D}_0$ 中，新的训练集记为 $\mathcal{D}_1$ 。
然后使用新的训练集 $\mathcal{D}_1$ 计算新的目标模型参数 $\tau_1=A_\theta(\mathcal{D}_1,\tau_0)$ 。我们的基于优化的学习器可以直接使用前一个目标模型 $\tau_0$ 作为初始化，这提高了算法的效率。具体来说，我们在新的训练集 $\mathcal{D}$ 上额外多做了 $N\rm^{inf}_{update}$ 次最陡峭下降迭代。
更新后的模型 $\tau_1$ 被应用到下一帧 $I_2$ 上。循环4中的过程直到序列结束。

细节

我们的内部小样本学习器 $A_\theta$ 在第一帧使用 $N\rm^{inf}_{init} = 20$ ，在后续的每一帧上使用 $N\rm^{inf}_{update}=3$ 。

我们可以很轻松地为训练集 $\mathcal{D}$ 中的每个样本生成一个全局重要性权重。
我们使用一个指数衰减权重参数 $\eta^{-t}$ 来降低旧样本（即和当前帧距离较远的帧样本）的影响。我们使用 $\eta=0.9$ ，并保证所有的权重和为 $1$ 。

小样本训练集 $\mathcal{D}$ 中最多有 $K_{\max}=32$ 个样本，也就是说我们会删去旧样本。
我们不会删除参考帧样本 $x_0,y_0)$ 。

序列中的每个帧先被裁剪为比前一帧目标估计大5倍的patch，然后被等比例缩放为 $832\times 480$ 。

如果一个序列中包含多个目标，我们将独立地并行处理每个目标，并使用软聚合操作（soft-aggregation operation ）合并预测的掩膜。

训练

我们长度为 $Q$ 的迷你序列 $\mathcal{V}=\{(I_t,y_t)\}^{Q-1}_{t=1}$ 上训练网络。

为了增加对外观快速变化的鲁棒性，我们从一个有着 $Q^{'}$ 帧的更大的窗口上按时序顺序随机采样样本帧。

在推断期间：

我们使用第一帧创造初始的小样本训练集 $\mathcal{D}_0 = \{(x_0,y_0)\}$ 。
然后我们根据 $\mathcal{D}_0$ 进行 $N\rm_{init}^{train}$ 次最陡峭下降迭代，获得初始的目标模型的参数 $\tau_0=A_\theta(\mathcal{D}_0,0)$ 。
在后续帧中，我们进行 $N\rm_{update}^{train}$ 次迭代来更新模型， $\tau_t=A_\theta(\mathcal{D}_t,\tau_{t-1})$ 。
每一帧的预测结果 $\tilde{y}_t=D_\theta(x_t, T_{\tau_{t-1}}(x_t))$ 都被加入到小样本训练集 $\mathcal{D}_t=\mathcal{D}_{t-1}\cup\{(x_t,\tilde{y}_t)\}$ 。

网络所有的参数 $\theta$ 通过最小化每个序列的损失来进行训练，损失函数如下：
$\mathcal{L}_{\textup{seq}}(\theta;\mathcal{V})=\frac{1}{Q-1}\sum_{t=1}^{Q-1}\mathcal{L}(D_\theta(F_\theta(I_t),T{\tau_{t-1}}(F_\theta(T_t))),y_t)$

其中， $\mathcal{L}(\tilde{y},y)$ 是预测结果 $\tilde{y}$ 和真实标记 $y$ 之间的分割损失。

在每个batch中，我们对多个迷你序列做平均，来计算最终损失的梯度。

值得一提的是，目标模型的参数 $\tau_{t-1}$ 被 可微分小样本学习器 $A_\theta$ 预测得到，因此依赖于 标签生成器 $E_\theta$ 、权重预测器 $W_\theta$ 和特征提取器 $F_\theta$ 。由于学习器 $A_\theta$ 的可微分性，这些模块都可以被端到端地训练。