See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks论文解读

最新推荐文章于 2022-07-04 19:39:17 发布

咆哮的阿杰

最新推荐文章于 2022-07-04 19:39:17 发布

阅读量3.8k

点赞数 1

分类专栏：视频目标分割深度学习

本文链接：https://blog.csdn.net/qq_34914551/article/details/100930295

版权

深度学习同时被 2 个专栏收录

62 篇文章 22 订阅

订阅专栏

视频目标分割

11 篇文章 6 订阅

订阅专栏

这是我看的第一篇无监督视频目标分割的方法（UVOS），是一篇CVPR2019，之前一直看的是半监督VOS，因为思路卡壳，在无监督VOS方法中寻求一下灵感。相较于半监督已经开始在保持精度的情况重视推理速度，无监督还是看重精度，不过毕竟UVOS没有给要分割哪一个目标。

官方代码

idea

作者提出一种co-attention，基于一个视频序列全局角度，来提升UVOS的精度。（确实领先目前的很多模型，davis官网的数据）。以往的一些方法，有通过显著性检测得到所要分割的目标，或者通过有限帧之间计算出的光流信息。COSNet则从整个视频序列中考虑哪个目标是需要分割的。在测试阶段，COSNet会综合所有前面的帧得到的信息，推理出当前帧中哪个目标是显著的同时还是经常出现的。Co-attention模块挖掘了视频帧之间丰富的上下文信息。基于co-attention，作者提出了COSNet（co attention Siamese）来从一个全局视角建模UVOS 。现在可能读者还是不能理解这个全局视角是什么，在method部分会解释。

main contribution

COSNet采用的训练方式是考虑一个pair，包含相同视频中的任意两帧，所以说极大的增加了数据量，不需要考虑时序关系，依次送入数据，而是可以打乱数据，随机组合。
显示建模帧和帧的联系，不依赖光流
统一的，端到端、可训练的高效网络

Method

这个section，将分为两个部分，一个是training stage的网络是如何工作的。另一部分是模型在test stage的行为。

training stage

在这里插入图片描述

overview of training model

两个帧 $F_a, F_b$ 经过backbone得到两个特征 $V_a, V_b$ ，这两个特征经过Co-attention模块，得到两个新的特征 $X_a, X_b$ ，新的特征带有两帧的联系性，这两个特征用于计算loss。从结构框图中，我们可以看出，关键的地方就是在于Co-attention模块。

co-attention

作者提出三种co-attention 变体（variants）前文提到的 $V_a, V_b$ 默认被reshap为 $R^{C \times HW}$

Vanilla co-attention

记仿射矩阵S，
$V_b^T W V_a \in R^{WH \times WH}$
$\in R^{C \times C}$ 是需要学习的权重矩阵，S的每一个元素代表了两个特征中的两列的相似程度（向量乘积是一个标量）。把W对角化：
$W = P^{-1}D P$
P是可逆矩阵，S可以写成
$S = V_b^TP^{-1}DPV_a$

Symmetric co-attention (对称）

如果W是一个对称矩阵，那么W一定可以正交对角化，
$S = V_b^TP^TDPV_a$
$S = (PV_b)^TDPV_a$ $
P是正交矩阵，先将两个特征投影到正交空间中，然后在计算相似距离，这样子可以消除通道之间的联系，使得特征不是冗余的。

Channel-wise co-attention

如果P是一个单位矩阵I，那么D可以被分解为两个对角矩阵。
$S = V_b^T I^{-1}DIV_a = (D_a V_b)^T D_b V_a$
其中 $D = D_a^T D_b$ ,D_a,D_b$都是对角矩阵。那么一个对角矩阵和一个矩阵相乘，得到的结果其实是对角矩阵对角线的值乘以对应的列。可以视作增强了某一个通道。和SENet有异曲同工之效果。也是减小了冗余度。

介绍完获得S的三种方式，接下来就介绍作者的co-attention.
在这里插入图片描述
得到S，对应第二行中间的部分，之后就分成两条路。左边得到 $S^c$ ,往右边走得到 $S^r$ 。这两个S分别反映了两个特征图Va，Vb之间的联系。想想它们的计算方式。接下来计算 $Z_a,Z_b$
$Z_a = V_b S^c$
$Z_b = V_aS^r$

Gated co-attention

作者引入Gated（门限），给学到的Z用同样大小的map reweights，算是空间注意力吧。
在这里插入图片描述

之后concat 从backbone得到的特征X

得到的两个重构的X，这个X是带有帧与帧之间的联系这个信息的，送到各自的seg Head中。

整个训练方式如上图：

随机从一个视频中选出两帧，经过backbone，经过co-attention,最后concat上backbone的特征，送到一个分割模块中，得到的预测结果用于计算损失函数。
作者提到使用在显著性数据集上预训练一个DeeplabV3，在deeplabV3后面加一个2通道的1x1的卷积作为输出。

test stage

在这里插入图片描述

首先选出N张参考帧集合 $F_b = \left\{F_{b1}...,F_{bn}\right\}$
和当前帧 $F_a$ ， $F_a$ 和 $F_b$ 中的所有参考帧都做成pair，得到一系列的 $Z_a$ ，然后按照

在这里插入图片描述
得到 $携带所有参考帧和当前帧联系的特征Z_a$ ，然后concat Va,送到分割网络中。

后处理使用了CRF

咆哮的阿杰

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
8
评论
See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks论文解读

这是我看的第一篇无监督视频目标分割的方法（UVOS），是一篇CVPR2019，之前一直看的是半监督VOS，因为思路卡壳，在无监督VOS方法中寻求一下灵感。相较于半监督已经开始在保持精度的情况重视推理速度，无监督还是看重精度，不过毕竟UVOS没有给要分割哪一个目标。官方代码idea作者提出一种co-attention，基于一个视频序列全局角度，来提升UVOS的精度。（确实领先目前的很多模型，d...
复制链接

扫一扫