(CVPR2019)视频-图像语义分割(21) 联合传播数据增广+标签松弛提升边界精度=语义分割效果提升

论文地址: Improving Semantic Segmentation via Video Propagation and Label Relaxation
项目演示

1. 简介

  该论文提出了一种基于视频帧预测的方法合成训练样本来对训练数据集进行增广以获得精度更高的语义分割网络。具体地,论文利用视频帧预测模型的能力同时获得更多的图像和标注,并且使用联合传播策略来消除合成样本中的误差,另外还设计了新颖的边界标签松弛技术使得训练过程对于合成样本数据和注释的偏差更加鲁棒。

  通过视频序列来高效合成更多训练样本的方式如下图所示,给定一个序列的视频帧,其中部分帧带有标注,之后利用视频预测模型的能力预测未来帧的标签(标注),具体地有两种方式:1)标签传播:只为现有的没有标注的视频帧预测标签;2)联合传播:同时预测新的视频帧及其标注,二者偏差具有较大的一致性,这是论文使用的方法。利用视频预测模型的能力是论文提出方法的核心,即通过合成方法生成更多的训练样本,提升视频语义分割的效果。
在这里插入图片描述

  综合来看,论文主要的贡献在于:

  • 利用视频预测模型为邻帧预测标签

  • 联合视频帧-标注传播消除图像与标注难以对齐的问题

  • 通过极大似然类别概率和边界来进行标签松弛

  • 比较了论文提出的视频预测方法与基于光流场的方法对于语义分割效果的提升

2. 相关工作

标签传播:有两种方式,patch-matching和光流法,前者对于基于块匹配与阈值的方法比较有效,某些情况下需要一些先验知识;后者依赖于非常精确的的光流估计结果,这较难以实现,不正确的光流估计会导致标注预测偏差较大。

  论文基于第二种方法进行改进,第一点,使用视频预测模型得到的运动矢量进行传播,(视频预测模型的训练是通过自监督);第二点不同在于,论文使用联合传播方法来消除对齐差。

边界处理:已有方法通过一体化的边缘线索处理边界像素,但有两种缺点,一是潜在的误差传播二是测试阶段的过拟合。也有另外一些方法,联合场,随机游走,标签松弛以及边界神经场。然而没有一个方法能够直接处理边界像素。与论文方法较为相似的是利用贝叶斯网络内部不确定性推理的方法,通过强行使像素点呈高斯分布来减弱不确定性较大时的损失。

3.具体方法

  给定输入输入视频 I ∈ R n × W × H I \in R^{n \times W \times H} IRn×W×H和语义标注 L ∈ R n × W × H L \in R^{n \times W \times H} LRn×W×H,其中 m ≤ n m \leq n mn,合成 k × m k \times m k×m个新的训练样本,其中 k k k是已有的图像标注对的长度。之后论文说明了如何使用视频预测模型来进行标签合成。

3.1 视频预测

  视频预测任务在于通过先前的帧生成之后的帧,可以视为直接像素合成或者学习转化先前的像素。该论文中,使用了一个基于向量的方法来预测运动矢量 ( u , v ) (u,v) (u,v)以预测出现有像素点的未来坐标,预测的帧由下面的公式给出:

I ˉ t + 1 = T ( ϱ ( I 1 : t , F 2 : t ) , T t ) \bar I_{t+1}= \Tau(\varrho(I_{1:t},F_{2:t}),T_t) Iˉt+1=T(ϱ(I1:t,F2:t),Tt)

  其中 ϱ \varrho ϱ是一个3D卷积神经网络,根据输入帧 I 1 : t I_{1:t} I1:t和输入帧 I i I_i Ii I i − 1 I_{i-1} Ii1之间的光流 F i F_i Fi来预测运动矢量。 T \Tau T是使用运动矢量 ( u , v ) (u,v) (u,v)从最近的输入 I t I_t It双线性上采样操作。

  需要注意的是光流向量 F F F和运动矢量不同,前者只对当前帧可见,对下一帧不可见,因此使用光流向量对当前帧进行采样会导致前景目标重复,图像产生小孔或者导致目标边界变形;而运动矢量能够精确的预测下一帧,论文在之后的章节也会说明。

  此外,论文还复用了该运动矢量来进行标签的预测:

L ˉ t + 1 = T ( ϱ ( I 1 : t , F 2 : t ) , L t ) \bar L _{t+1}= \Tau(\varrho(I_{1:t},F_{2:t}),L_t) Lˉt+1=T(ϱ(I1:t,F2:t),Lt)

  其中 T \Tau T是作用与上一帧标签的采样操作。

3.2 图像-标签联合传播策略

  传统的标签传播方法根据原始视频中的下一帧 I i + k I_{i+k} Ii+k得到标签 L ˉ i + k \bar L_{i+k} Lˉi+k创造新的样本,这样标签和帧之间的对应并不精确,可能会碰到存在差别得情况,如下图所示,虽然大部分预测得的标签(第二行)和原始图像(第一行)相符,但是由于不准确的运动矢量导致一些不符合的地方比如红色框和绿色框。
在这里插入图片描述
  为消除这种不对齐,论文采用了图像标签联合传播策略,即图像和标签样本对 ( I ˉ i + k , L ˉ i + k ) (\bar I_{i+k},\bar L_{i+k}) (Iˉi+k,Lˉi+k)都是根据已有图像和标注来得到的,如上图的第三行,图像和标注的对齐差相近。同时作为一种特殊的数据增广方式,而且该方法还反向传播得到更多的数据,论文每一帧生成了 ± 5 \pm 5 ±5共十个训练样本。(另外该方法还能够为一些图像对应的标签缺乏的数据集做"修缮"工作)

3.3 边界像素点标签松弛

  语义分割任务中最难分类的像素点就是边界出的点,论文提出了一个对于类别标签空间进行修改的方法用于训练过程,允许模型能够给边界像素点预测多个类别。比如,我们要给类别A和类别B之间的一各像素点进行分类,不同于根据标注来极大似然目标标签,论文极大似然类别A和B交集的概率,由因为A和B互斥,有:

P ( A ⋃ B ) = P ( A ) + P ( B ) P(A\bigcup B)=P(A)+P(B) P(AB)=P(A)+P(B)

  其中 P ( ) P() P()是每个类别的softmax概率,另使 N N N为一个像素的 3 × 3 3\times 3 3×3像素窗口的类别,损失函数定义为:

L b o u n d a r y = − l o g ∑ C ∈ N P ( C ) L_{boundary}=-log\sum_{C\in N}P(C) Lboundary=logCNP(C)

  其中 ∣ C ∣ = 1 |C|=1 C=1,这个损失降低值标准的交叉熵函数。

4. 实验结果

(Cityscapes)

定量
在这里插入图片描述

定性1-裁剪
在这里插入图片描述
定性2-全景
在这里插入图片描述
(KITTI)

定量
在这里插入图片描述
定性
在这里插入图片描述
(CamVid)

定量
在这里插入图片描述

5. 结论

  论文提出的基于视频预测的数据合成方法对训练数据进行增广,引入联合传播策略和边界松弛技术提升效果,最终在多个数据集上取得了SOTA效果,除此之外,论文还指出还有更多比如GANs的数据增广方法。另外标签松弛技术可以用在更多的语义分割模型中以获得更好的不确定性推理。


欢迎扫描二维码关注微信公众号 深度学习与数学  [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]
在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值