cccMotion-Attentive Transition for Zero-Shot Video Object Segmentation(2020 AAAI)_行走江湖要用艺名的博客-CSDN博客
【视频目标跟踪】Motion-Attentive Transition for Zero-Shot Video Object Segmentation 一览_给时光以生命-CSDN博客
以上为阅读论文的一些参考。
1.简介
(1)MATNet:Motion-Attentive Transition Network-----在双流 encoder中设计了一个非对称注意力模块,在每一个res stage处,借助于该模块,将外观特征转化为专注于运动的表示形式,可以在encoder编码期间就实现了对象运动和外观之间紧密的分层交互。
(2)增加一个bridge network,可以获得一个紧凑、具有识别力、尺寸敏感的multi-level 编码器特征,并将特征送入解码器,得到最终的分割结果
(3)深度交互的双流编码器:更有效的表示运动模块
Boundary-Aware Refinement (BAR):借助物体边界推理、预测分割结果
Scale-Sensitive Attention (SSA):自适应选取和转换编码器特征
multiple Motion-Attentive Transition (MAT):输入图像和光流图在卷积阶段的中间特征作为输入 ——在每一个块内部加入不对称的注意机制(根据光流图推断感兴趣的区域---将推断结果传给外观特征以优化选择)——每个MAT块为卷积阶段(ResNet block)提供 attentive appearance and motion features
2.方法
A.综述
(1)Interleaved Encoder Network
Step1:选取 ResNet-101(?????)的前五个卷积块作为backbone
Step2:编码器提取2、3、4、5阶段的中间特征(i=2/3/4/5)
Step3:MAT模块增强特征
(2)Bridge Network
由SSA模块(有选择得将编码器特征转移到解码器)组成,每一个SSA在第i个阶段提取特征Ui并预测一个attention-aware特征Zi。
该过程通过two-level attention schemel:ocal-level attention采用channel-wise和spatial-wise注意力机制来使输入特征聚焦到正确的对象区域并且抑制冗余特征中可能存在的噪声。global-level attention旨在重新校准特征,以考虑不同尺寸的物体。
(3)Decoder Network
四个BAR模块(2/3/4/5),每个BAR模块对应第i个残差块,从BAR5到BAR2通过用更多的低层细节来补偿高层粗糙特征,特征映射的分辨率逐渐提高。
BAR2产生最好的特征图,分辨率为输入图像的1/4,通过两个额外层(conv(3*3,1)---sigmoid)获得最终的mask输出。
B.MAT模块
MAT由两个单元组成:a soft attention(SA) unit---集中注意力到重要的输入区域、an attention transition (AT) unit---迁移运动注意力特征以促进外观特征的学习
(1) Soft Attention
Step1:在空间对每一个位置softly加权输入特征图(Vm,Va)
Step2:若Vm为输入,获取一个motion-attention权重,加权输入得到一个motion-attention feature。
*为卷积操作,wm为1×1conv,softmax为归一化操作---将Vm映射到一个重要度矩阵
⨀是逐元素的乘法,𝑈𝑚∈RW×H×C,右上角的c表示c通道特征的特征切片
(2)attention transition
Step1:利用non-local的方式,用多模态双线性模型找𝑢𝑚和𝑢𝑎的关系
W是一个可训练的权重矩阵(C×C),相似性矩阵可以有效的捕捉两个特征空间之前的成对关系,但是这也会引入大量参数,会增加计算成本并产生过度拟合的风险。 为了解决这个问题,W被分解为两个低秩矩阵P(C×C/d)和Q(C×C/d),d(d>1)是减少的比率
这个操作就等价于在执行相似性矩阵计算前,对Ua和Um执行channel-wise的特征变换,将特征通道数减少为C/d,这不仅减少了参数数量,还为每个model生成了紧凑的channel-wise特征表示
Step2:对相似性矩阵S每一行进行归一化,得到一个基于运动特征的attention map Sr,将其与外观结合得到增强的外观特征:
C.SSA模块
SSA由简化的CBAM FCBAM通过增加一个global-level attention Fg拓展而来,表示为:
CBAM的FCBAM由两个顺序子模块构成---channel attention、spatial attention
Step1:channel attention
Fs:是一个压缩算子,将U的全局空间信息聚集到向量S(2C)中------对每一个特征通道(feature channel)执行池化(avgpooling)
Fe:是一个激励算子,捕获通道相关性并输出注意力向量e(2C)。
Zc(W×H×2C)是 channel-wise attentive features,五角星是channel-wise multiplication
Step2:spatial attention
Fp利用了Zc的空间关系,生成空间注意力图P(W×H)
最后得到ZCBAM(W×H×2C)作为local-level feature
Step3: global-level attention Fg
和CBAM模块用相同的压缩算子,并且将激励算子更改为:
输出一个选择因子g(1)
Step4:获取scale-sensitive features Z
D.Boundary-Aware Refinement Module
两个输入:来自对应SSA模块的Zi、来自前一个BAR模块的Fi
Step1:利用Fbdry(额外边界检测模块)对对象边界估计
Step2:将预测的边界映射与两个输入结合为下一个BAR模块提供更精细的特征
Fbdry模块由卷积层和Sigmod层组成,Mib(W×H)表示boundary map,Fi-1是BARi的特征输出图
BAR模块从两个因素取得收益:
(1)Atrous Spatial Pyramid Pooling (ASPP):其转换为多尺度表示,有助于扩大感受野,并且获得更多的空间细节来进行解码。
(2)引入了一种启发式方法,用于自动挖掘困难负例像素以支持Fbdry的训练。对于每个训练帧,使用off-the-shelf HED model来生成边界图E([0,1],H×W),Ek表示像素k是边界像素的可能性。如果像素概率Ek>0.2并且处于扩张的ground truth区域,则被认为是hard pixel;如果k是hard pixel,则其对应的权重w=1+Ek,否则对应的权重为w=1。w被用来对边界损失进行加权,以便在对hard pixel进行错误分类时,对其进行严重的惩罚。
HED效果图:
3.实现细节
(1)利用segmentation mask和4个boundary predictions计算损失函数:
Lce表示经典 cross entropy loss
(2)所有帧的大小设为473×473
(3)encoder and the bridge network学习率:1e-4、decoder学习率:1e-3
4.实验
(1)数据集:
DA VIS-16 :由50个高质量的视频序列组成(30个用于训练,20个用于验证),性能衡量---区域相似性J,边界精度F,时间稳定性T
YoutubeObjects:是一个包含126个web视频的大数据集,包含10个语义对象类别,超过20000帧,性能衡量---区域相似度J
FBMS :由59个视频序列组成,不使用任何序列进行训练,只对由30个序列组成的验证集进行评估
(2)使用5个MAT块时性能最佳