Improving Semantic Segmentation via Video Propagation and Label Relaxation

最新推荐文章于 2025-04-18 09:54:34 发布

bea_tree

最新推荐文章于 2025-04-18 09:54:34 发布

阅读量2.8k

点赞数

文章标签：图像分割 semantic segmentation video prediction sdc

本文链接：https://blog.csdn.net/bea_tree/article/details/90743759

版权

ConvNets 专栏收录该内容

39 篇文章

订阅专栏

在这里插入图片描述

一篇使用视频信息提升semantic segmentation 精度的工作，可以看成合理的进行data augmentation方法，文章试验做的很全面，总体来说非常扎实。文章继承了英伟达该组之前的sdc net (见本文附录)的工作。

Methodology

使用SDC-net 预测某片段前后k 帧图像motion vectors从而得到相应的image和label，增加了网络的训练数据。
物体边缘的分割历来是分割任务中比较难的地方，使用motion vectors可能存在预测不准的case更是加重了这种问题，文章缓解这种问题的方法如下图：

其中C是某像素周围3x3范围gt存在的种类数，直观来看softmax cross entropy中倾向于使单个类别的概率为1，本文中的label relaxation倾向于使得该像素成为相邻gt中若干类加在一起的概率为1，如果C只取一类就是标准的cross entropy，如果取全部类别相当于ignore。

文章的cityscape baseline也比较强，使用了ma’pi’llary pretrin， Class Uniform Sampling，resnext 50 的deeplab v3 val集miou 79.46%，video propagation 和label relaxation各提高接近一个点。在camvid 和kitti这种小数据集上提升更明显。

Appendices

在这里插入图片描述
对于 video prediction，文中提到vector based 集kernel based的方法。 vector based方法根据之前帧出现的位置resample，相当于学到了某个像素在之前帧的位置，这种方法的缺点是不能很好的应对之前帧不存在的区域；另外 kernel based的方法根据之前帧相邻范围像素的关系得到当前帧的像素值，这样由于kernal的限制不利于捕捉远距离的移动关系。文中的sdc结合了以上两者的优点，同时做vector 集kernel的学习。
在这里插入图片描述
模型结构：