Improving Semantic Segmentation via Video Propagation and Label Relaxation

在这里插入图片描述

一篇使用视频信息提升semantic segmentation 精度的工作,可以看成合理的进行data augmentation方法,文章试验做的很全面,总体来说非常扎实。文章继承了英伟达该组之前的sdc net (见本文附录)的工作。

Methodology

  1. 使用SDC-net 预测某片段前后k 帧图像motion vectors从而得到相应的image和label,增加了网络的训练数据。
  2. 物体边缘的分割历来是分割任务中比较难的地方,使用motion vectors可能存在预测不准的case更是加重了这种问题,文章缓解这种问题的方法如下图:
    在这里插入图片描述

其中C是某像素周围3x3范围gt存在的种类数,直观来看softmax cross entropy中倾向于使单个类别的概率为1,本文中的label relaxation倾向于使得该像素成为相邻gt中若干类加在一起的概率为1,如果C只取一类就是标准的cross entropy,如果取全部类别相当于ignore。

文章的cityscape baseline也比较强,使用了ma’pi’llary pretrin, Class Uniform Sampling,resnext 50 的deeplab v3 val集miou 79.46%,video propagation 和label relaxation各提高接近一个点。 在camvid 和kitti这种小数据集上提升更明显。

Appendices

在这里插入图片描述
对于 video prediction,文中提到vector based 集kernel based的方法。 vector based方法根据之前帧出现的位置resample,相当于学到了某个像素在之前帧的位置,这种方法的缺点是不能很好的应对之前帧不存在的区域;另外 kernel based的方法根据之前帧相邻范围像素的关系得到当前帧的像素值,这样由于kernal的限制不利于捕捉远距离的移动关系。文中的sdc结合了以上两者的优点,同时做vector 集kernel的学习。
在这里插入图片描述
模型结构:
在这里插入图片描述

loss function:
除了pixel的l1 loss还用了以下loss:
在这里插入图片描述
L perceptual是用vgg等model的feature来约束。
Lstyle 是考虑feature的channel之间的关系
可视化结果还是不错的

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值