Full-Duplex Strategy for Video Object Segmentation

 

  •  Paper和Code地址FSNet
  •  发表期刊:ICCV2021
  •  方向:视频目标分割
  • 解决问题:表观信息(RGB图)与运动信息(光流图)是视频目标分割(VOS) 中相当重要的两个信息源。先前的方法着重于使用基于单工策略(表现优化运动或者运动优化表现)的解决方案,这类方法降低了特征线索内和特征线索间交互能力的最大上限。
  • 贡献:
  1.  本文强调了时空表征中全双工策略的重要性. 具体而言,使用一个名为关系交叉注意力(RCAM)的双向交互模块,从表观和运动分支提取具鉴别性的特征,以确保两者之间的相互约束.
  2. 为了进一步提升模型的鲁棒性,本文提出了一个双向提纯模块(BPM),它配备了交错递减连接(IDC)以自动更新时空嵌入中的不一致性.
  •  主图

 

 将T个连续帧输入到生成器H,也就是FlowNet2.0中,得到T-1个光流图,为了保证每一帧匹配一个光流图,论文中舍弃最后一帧。将T-1个RGB图和T-1个光流图成对的分别输入到两个独立的ResNet-50分支中。从K层中获得分别获得K个表观特征Xk和K个运动特征Yk,K=1到K,再将这些特征输入到RCAM中,得到K个混合特征Zk,从而让网络能够嵌入基于时空的交叉模态特征,接着使用N个叠加的BPMs对混合特征和运动特征进行提纯,以获取具有鉴别性的信息,最后采用两个解码器生成最终的预测图。

  • RCAM(关系交叉注意力模块)
  1. 设计的动机:单一模态(运动或表观)所引导的刺激信号可能会导致模型做出错误决策。
  2. 作用:基于通道维度的注意力机制设计了RCAM,融合跨模态特征,对从两个模态获得的有效压缩信息进行提纯并相互调节彼此。
  3. 内部结构图

将ResNet-50中第k层的表观特征Xk进行全局平均池化(GAP)操作来获得一个基于维度的向量Vkx,再将Vkx进行卷积和激活到[0,1]区间,并与ResNet-50中第k层的运动特征进行外积相乘,从而得到一个候选特征,同理作用于Yk,得到另一个候选特征,接着结合两个候选特征和融合后的低级语义特征Zk-1来进行深层的特征提取,做法是将三者逐元素相加。公式如下:

    

 k=1到K,对ResNet-50中的K个层,每一层的Xk和Yk都进行上述操作从而将特征融合,最终得到由K个表观特征和K个运动特征融合后的K个包含了时空关联的融合特征Zk。论文中Z0表示全零张量,K取4。

  • BPM(双向提纯模块)
  1. 设计的动机:提升模型的鲁棒性。
  2. 作用:特征提纯
  3. 内部结构图 

   

F和G是由融合特征Z以及运动特征Y经过特征分配器统一化后的结果。特征分配器是由两个带有32个3x3的卷积核大小的卷积层所构成,作用是有助于减少计算负担,同时有利于不同特征之间的逐像素操作。图中的k(1到K)和n(1到N)分别表示特征的不同层级和双向提纯模块的数量。图a,时间维度的特征重校准分支,运动特征G包含时间线索并且可以通过拼接操作来丰富融合特征F;图b,时空融合分支,可以通过与融合特征F相乘来抑制运动特征G中的干扰信息。另外,如上图的最右边所示,本文自顶向下的交错连接(IDC),将高层次富语义特征传播到低层次弱语义的特征之中。公式如下:

      

  

  • 解码器

 将最后一个双向提纯模块产生的特征Fk和Gk(k=1,2,3,4)分别从高层向低层进行融合,高层特征经过金字塔池化层和上采样操作之后再与低一层特征做拼接操,继续经过一个卷积层,最后在上游输出融合后的F1帽和G1帽,再分别对F1帽和G1帽做一个卷积操作和一个激活函数来生成视频帧在t时刻的预测图(两个),公式如下:

    

  

  • 训练

将t帧得到和两个预测图分别与对应的标注Gt使用损失函数来衡量输出与目标的差异,由实验结果显示融合表观和运动线索会带来更好的表现(丰富融合特征F的效果比抑制运动特征G中的干扰信息的效果更好),所以采用Sa作为最终预测结果。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值