论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

最新推荐文章于 2024-06-18 11:00:32 发布

汐梦聆海

最新推荐文章于 2024-06-18 11:00:32 发布

阅读量1k

点赞数 2

分类专栏：实例分割

本文链接：https://blog.csdn.net/jackzhang11/article/details/116130170

版权

实例分割专栏收录该内容

12 篇文章 8 订阅

订阅专栏

论文链接：https://arxiv.org/abs/2003.08429

STEmSeg是ECCV20上的一篇文章，做的是Video Instance Segmentation（VIS），提出了一种可以end-to-end的方法，大大简化了VIS的pipeline，同时在很多数据集上达到了SOTA。

过去很多经典的方法都遵循top-down模式，即仿照MOT里的tracking-by-detection的范式。这类方法通常会利用多个模型，先做单张image的检测，再做帧之间的association，对于occlusion用appearance model处理。这种pipeline虽然精度较高，但包含了太多的network，因此计算复杂，且无法end-to-end。

所以作者另辟蹊径，受Perceptual Grouping Theory启发，提出了一种bottom-up的方法。该方法的核心就是采用spatio-temporal embeddings，通过给每一帧每个pixel一个高维度的embedding，将同一个instance的pixel投影到embedding space中相近的位置，使他们属于同一个cluster。

Problem Formulation

假设视频片段共 $T$ 帧，分辨率是 $H * W$ ，由于视频是RGB三通道的，因此clip可以表示为 $\chi \in R^{N*3}$ ，其中 $N = T * H * W$ ，假设在整个clip中有 $K$ 个instance。设计的网络需要利用embedding function得到每个instance的时空信息，进而对每个pixel的embedding进行聚类。同时，该方法和传统的有一点不一样，即作者提出的方法还需要估计每一个cluster的中心，以及其方差，从而做到更高效的inference。综上所述，网络可以被看作是一个映射，从原视频 $\chi$ 映射为三部分输出:（1） $\varepsilon \in R^{N*E}$ ，对于每一个pixel得到一个维度为E的embdding；（2） $\in R^{N*E}_{+}$ ，对于每个pixel，得到一个维度为E的正值方差向量；（3） $\in [0,1]^{N}$ ，作为表示instance中心的Heatmap。

对于每一个Instance（假设这里是第j个实例），我们将他建模成一个高斯分布 $N(\mu_{j},\sum_{j})$ ，所以根据上述的output，在training阶段，由于我们有GT，所以可以通过下式计算出每一个instantce的mean和variance：
在这里插入图片描述
对于某一个像素i来说，可以利用其embedding和variance，通过下式来计算属于某个实例j的概率：

所以可以用 $\hat{C_{j}}$ 来表示属于第j个instance的像素集合，判断依据是 $p_{ij}>0.5$ ，形式如下：

因此在training阶段，训练的任务就是找到最优的参数 $\mu_{j}^{OPT},\sum_{j}^{OPT}$ ，使得通过GT得到的 $C_{j}$ 和通过网络计算得到的 $\hat{C_{j}}$ 之间的IOU尽可能大，形式如下：
在这里插入图片描述
通过上述4个公式，对每一个instance分别进行计算。

Embedding Representation

通过上面的network，可以求得任意维度的embedding特征表示。但是作者考虑到每个pixel的embedding还需要附带上自身的位置信息（因为这些位置信息本身就可以作为一个很好的初始特征），所以采用了一个mixing function $\phi :R^{E}\rightarrow R^{E}$ 。由于这里是考虑了时空特征，所以属于三维的embedding，对于第i个pixel来说，他的混合函数可表示为： $\phi_{xyz}(e_{i})=e_{i}+[x_{i},y_{i},t_{i}]$ ，这里 $e_{i}$ 的维度E=3，式子表示对应位置做加法。

但是除了上述三个必要的时空维度信息，我们还可以设置额外的free dimension，例如设置E=4，此时混合函数就可以表示为 $\phi_{xyzf}(e_{i})=e_{i}+[x_{i},y_{i},t_{i},0]$ 。这里自由维度的设置可能是把双刃剑，并不是设置的越多越好，具体可以参考实验部分的讨论环节。

Inference

由于Inference阶段没有可用的GT，因此无法通过上面的四个式子计算出每个instance的embedding的均值和方差 $\mu_{j},\sum_{j}$ 。所以这里Heatmap就派上用场了，具体流程如下图：
在这里插入图片描述
（1）根据Heatmap选出instance的中心点；

（2）找到该中心点所对应的embedding和方差向量；

（3）将该instance的均值和方差用这个中心点所对应的来表示，并通过计算公式（2），来判断某个pixel属于该实例的概率；

（4）由于一些像素已经分配到实例j中，所以为了更长远的考虑，将他们的信息剔除掉

（5）重复1-4的操作，知道Heatmap为空集，或者最大值小于我们设定的threshold。

此外要注意的是，直接将T帧全部塞入内存太大了，所以作者拆分成若干个 $T_{c}$ ，每一部分之间用Linear Assignment联系起来，具体可以参考代码。

Losses

损失函数由三部分组成：
在这里插入图片描述
（1）embedding loss采用Lov`asz hinge loss来优化GT和预测值之间的IOU，上面已经给了；（2）smmoth loss表示方差部分采用的是smoothness loss，这个损失和CVPR19的一篇实例分割的文章中的很像，可以大体先当作是L1 loss，用于将每个实例的方差回归到他们方差的均值上面；（3）Heatmap loss，采用简单的L2 loss。

Network Architecture

在这里插入图片描述
ResNet+FPN，后续对四个不同尺度的特征图分别作3D卷积，然后concat起来。值得注意的是，分辨率大的feature map经过的3D卷积次数最少，因为这里是为了减小内存和计算开销。

实验部分

DAVIS19上的消融实验：
在这里插入图片描述
YouTube VIS数据集和其他方法的对比：

MOTS数据集：

总结

作者提出了一个非常简洁的bottom-up的VIS处理流程，实现了end-to-end。相比于其他基于tracking-by-detection的top-down方法来说简化了太多。通过将每一个instance建模成一个涉及到时空特征的高斯分布，来判断其他pixel属于该instance的概率，这里非常巧妙。具体很多细节还要从代码中挖掘。

汐梦聆海

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
论文阅读《STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos》

论文链接：https://arxiv.org/abs/2003.08429STEmSeg是ECCV20上的一篇文章，做的是Video Instance Segmentation（VIS），提出了一种可以end-to-end的方法，大大简化了VIS的pipeline，同时在很多数据集上达到了SOTA。过去很多经典的方法都遵循top-down模式，即仿照MOT里的tracking-by-detection的范式。这类方法通常会利用多个模型，先做单张image的检测，再做帧之间的association，对于o
复制链接

扫一扫

专栏目录