《Time-Space Transformers for Video Panoptic Segmentation》阅读笔记

猴猴猴猴猴猴

已于 2022-10-12 22:19:18 修改

阅读量726

点赞数

分类专栏：阅读笔记文章标签：计算机视觉人工智能深度学习

于 2022-10-11 22:56:40 首次发布

本文链接：https://blog.csdn.net/SALDJF1352/article/details/127271017

版权

阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

摘要

提出了一个结合CNN和Transformer的视频全景分割框架；
CNN用于图像全景分割，Transformer用于建模时序依赖关系；
Cityscapes-vps数据集上VPQ提升了2.2%

引言

--------------------------------------------------1--------------------------------------------------

VPS是一种兼顾像素级分类和实例级分类和跟踪的计算机视觉方法；
VPS被广泛应用于机器人和无人驾驶领域；
VPS需要帧间时序信息，相比图像全景分割更具有挑战性。

--------------------------------------------------2--------------------------------------------------

充分提取(语义)连续视频帧中的时序信息可以增强VPS准确率和连续性；
视频场景演变带来的语义冲突和新目标会破坏(语义)连续视频帧中包含的时序信息，进一步引申出两个问题：
- 要避免引入过时的时序信息；
- 要平衡准确率和效率之间的关系。

--------------------------------------------------3--------------------------------------------------

VPS是新兴领域，相关研究不是太多；
经典的VPS方法有VPSNet和ViP-DeepLab，他们更注重提升VPQ，反而忽略了分割效率；
- VPSNet：利用多张视频帧生成光流图提升时序联系，本方法只需处理当前视频帧，后续用Transformer结合以往特征信息进行位置关联；(两方法都是提取两个视频帧的特征，然后计算光流图；不同的是VPSNet每分割一帧都要提取相邻帧的特征，该方法则是将前一帧的特征存入memory，供下一帧分割时使用，用存储量换取计算量)
- ViP-DeepLab分别生成当前帧的像素级分类(语义解码器)、实例中心的类别预测和位置回归(实例解码器)，以及下一帧实例的位置回归(与当前帧实例解码器的结构相同)，本方法具有更高的性能和更轻量化的结构。

--------------------------------------------------4--------------------------------------------------

网络结构：

backbone提取的特征被送入Transformer解码器，该解码器连同上一帧视频特征强化特征质量
强化后的特征被分别送入光流解码器、全景分割头进行处理；
- 全景分割头：生成当前帧的图像全景分割结果；
- 光流解码器：结合当前帧和上一帧强化特征生成光流图，用于更新上一帧的视频全景分割结果；
全景分割结果与一起被送入ID关联模块，得到当前帧的视频全景分割结果。

--------------------------------------------------5--------------------------------------------------

贡献：

提出了一个更高分割性能的网络
添加了光流解码器作实例追踪和ID关联
构建了轻量化Transformer模块 ~~(就这个靠谱点)~~
在Cityscapes-vps数据集上取得了更好的性能

算法

整体流程如下图所示：
整体流程图
对于当前视频帧，使用Backbone提取特征图并送入Transformer Video Module增强表征能力，增强后的特征分别被送入Optical Flow Decoder和Panoptic Decoder生成光流图和当前帧全景分割结果，最后结合两图执行ID Association统一目标实例在不同视频帧中的ID号。
下面简要介绍各模块的结构：

Transformer Video Module：
该模块结合当前帧和上一帧特征生成具有更强表征能力的视频特征，作者设计了两种变体(中/右)，分别是在原self-attention(左)的基础上再计算一次时空和时间注意力，具体结构如下所示：

Transformer Video Module结构记当前帧特征为Query，上一帧特征为Memory，两种变体的计算流程可表示如下：

Global Time-Space Attention: 先对Query $\in\mathbb{R}^{B×(H×W)×C}$ 计算自注意力(维度不发生改变)，然后利用全连接层将Memory $\in\mathbb{R}^{B×(T×H×W)×C}$ 化为K, V并与Query计算注意力，计算流程与自注意力相同，两者只是输入不同。计算过程的维度变换如下：
$QK^{T}:B×[(HW×C)×(C×THW)]\rightarrow B×HW×THW\\ \frac{QK^{T}}{V}:B×[(HW×THW)×(THW×C)]\rightarrow B×HW×C\rightarrow B×H×W×C$

Local Time-Space Attention: 同样先对Query $\in\mathbb{R}^{B×(H×W)×C}$ 计算自注意力，然后利用全连接层将Memory $\in\mathbb{R}^{(B×T)×(H×W)×C}$ 化为K, V并与Query计算注意力，这里注意Memory的尺度。计算过程的维度变换如下：
$QK^{T}:HW×[(B×C)×(C×BT)]\rightarrow HW×B×BT\\ \frac{QK^{T}}{V}:HW×[(B×BT)×(BT×C)]\rightarrow HW×B×C\rightarrow B×H×W×C$

注意力计算过程中，作者分别为时间和空间轴向添加了位置编码(红圈)，其中蓝色箭头为空间轴位置编码，黄色箭头为时间轴位置编码。

Optical Flow Decoder
Optical Flow Decoder生成光流图参照VPSNet的光流提取部分，生成的光流图是 $\mathbb{R}\in({B×H×W×2})$ 的偏移量集合，其中第一层 $(B \times H \times W)$ 表示各像素在水平方向的偏移量，第二层 $(B \times H \times W)$ 表示竖直方向的偏移量。生成的光流图会与上一帧视频分割结果执行Warp操作，即利用该偏移量更新上一帧视频分割结果。对于任意像素 $p (x, y)$ ，偏移后位置 $(x ‘, y ’)$ 计算如下：
$x'=x+\delta{(x)}\\ y'=y+\delta{(y)}$
Backbone/Panoptic Decoder：
文中Backbone/Panoptic Decoder的设置与Panoptic DeepLab相同，分别用于提取视频特征和生成全景分割结果。
ID Association
对于当前帧任意实例，与上一帧各实例计算IoU，取IoU最大的实例ID赋予当前实例。