【语义分割论文】Leveraging Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation


在这里插入图片描述
用于视频序列中城市场景分割的半监督学习
论文地址: https://arxiv.org/abs/2005.10266
论文团队:谷歌

1. 摘要

大型判别模型中的监督学习是现代计算机视觉的主流方法。这种方法需要大规模的人类标注数据,才能实现SOTA的效果。这也意味着监督学习的方法也会受限于人类标注的数据。这种局限性在图像分割任务中特别明显,人工注释的开销特别大,而且可能存在大量未标记的数据。在本文中,作者提出想知道是否可以在未标记的视频序列中利用半监督学习来提高城市场景分割的性能,同时处理语义、实例和全景分割。这项工作的目标是避免构建专门用于标签学习的复杂的体系结构。比如说,patch matching and optical flow。相反,本文只是简单地预测未标记数据的伪标签,并使用人工注释和伪标记数据训练后续模型。这个过程迭代了几次。实验结果表明,本文的Naive-Student模型,通过使用简单有效的半监督迭代方式进行训练,得到SOTA的结果,在Cityscapes数据集上达到 85.2% mIOU 。这项工作是一个重要的进步,建立起一个简单的程序,利用未标记的视频序列,以超越最先进的计算机视觉任务。
关键词: 半监督学习,伪标签,语义分割,实例分割,全景分割

2. 引言及相关方法

监督学习的局限性在图像分割任务中最为明显。在自动驾驶任务中,视频的标注更是一个关键的监督学习问题,这反过来又催生了一个专门从事数据标注的行业。其他一些研究也试图利用视频中的标签传播来改进图像分割。但是,这些方法需要构建专门的模块来跨视频帧传播标签。
在这项工作中,我们利用未标记的视频序列,以提高城市场景分割评估的语义分割,实例分割,和全景分割。重要的是,重要的是,我们不需要任何专门的方法来跨视频帧传播标签信息,比如patch matching and optical flow,或是学习运动矢量。相反,本文利用一个简单的可迭代的半监督学习方法。在每一次迭代中,前一层迭代的模型会为未标注的视频帧产生伪标签。如下图所示,本文在Cityscapes数据集中进行实验,对每个视频序列,每30帧标注一帧作为人工标注的标签,其他标签利用半监督学习得到伪标签,右图所以为每次迭代的涨分。具体地说,伪标签是通过对每个未标记视频帧的多个数据增强进行蒸馏而生成的。训练过程的后续迭代对原始标记数据和新伪标记数据进行训练。
在这里插入图片描述
本文的方法是与self-training(模型对于未标记的数据预测用来训练模型)以及semi-supervised learning(增加额外的人工标注数据来对未标注数据进行指导)相关,本文的方法是利用少量人工标注的数据以及大量伪标签来进行训练。
半监督学习目前已经被广泛应用在各种计算机视觉任务中。本文所提出的半监督学习方法与已有的STC、Simple-Does-IT、Noisy-Student等方法相似。特别的是,本文所提出的可迭代的半监督学习方法与 Expectation-Maximization method(Weakly and semi-supervised learning of a deep convolutional network for semantic image segmentation)但是,与之前方法不同的是,本文没有利用任何弱注释的数据。此外,不根据注释难度对图像进行排序,也不像在STC中那样利用任何其他帮助,例如显著性映射。
当得到伪标签后,本文利用了一个简单的 test-time增强,比如,多尺度输入、左右翻转。然而,本文的方法是基于一个可迭代的模式。本文也没有利用阈值来移除 false positives,避免多引入超参数。本文也并没有利用标签传播的方式,二是直接得到每一帧的伪标签。

3. 本文主要方法

假设给出两个数据集,一个是有人工标注的,一个没有。人工标注的图像被用来训练一个Teacher network,对于未标注的图像利用加上数据增强的教师网络来产生伪标签。Student network,是利用伪标签 并且使用与teacher网络同样的loss函数训练得到。然后再将Studentnetwork在人工标注数据上进行finetuned,最后可以用Student network 替换
Teacher network,再进行迭代。整体算法如下图所示:
在这里插入图片描述

3.1 The Loss for Scene Segmentation

本文利用了 Panoptic-DeepLab的网络架构,通过加入了实例分割预测来改进了DeepLabv3+。实例分割的预测包含实例中心点的预测以及到中心点的offset回归。总体的loss函数包括三部分:
softmax cross-entropy for 语义分割;
MSE loss for 实例中心点预测;
L1 loss for offset回归。
Teacher network 和student network使用同样的loss函数。

3.2 Pseudo-Label Generation

本文使用一个test-time的增强函数来得到伪标签,本文得到的是hard 伪标签,比如one-hot分布,为了减少内存空间。

3.3 Ego-Car Region in Pseudo Labels

Cityscapes数据是用行驶的车辆采集的,车辆本身有一部分区域,被称为”ego-car” region,是在一个视频序列中所有帧都可见的一个区域。这部分区域通常在评价模型时被忽略。然而,本文发现,添加一个随机的伪标签值在这个区域会干扰模型的训练。为了解决这个问题,本文应用了一个简单的解决方案,通过利用先验知识,Cityscapes的图像都是标定好的并且ego-car区域是固定位置的,因此在没有人工标注的图像中预定义了这部分区域作为void label,也就是不参与训练。

3.4 A Better Network Backbone for Scene Segmentation

使用了有效的backbone,Xception-71 (X-71),被应用在第一次迭代的Teacher network中,在下一次迭代时,应该采用一个更强的backbone网络,来产生更好的伪标签,使用了Wide ResNet-38 (WR-38),移除了最后一个残差模块B7, 并将B6复制了一遍,得到了WR-41。增加了drop path 和multi-grid的方法在最后三个残差模块。最后,WR-41会比Xception-71 (X-71)具有更强的效果。

4. 实验

本实验对Cityscapes数据集的划分:

  • train-fine:Training set (2,975 images) with fine pixel-wise -annotations;
  • val-fine: Validation set (500 images) with fine pixel-wise annotations;
  • test-fine: Test set (1,525 images) where the fine pixel-wise annotations are held-out, and the evaluation is performed on a fair test server;
  • train-extra: Extra 20,000 images with coarse annotations. In our experiments, we do not exploit the provided coarse annotations, but instead generate pseudo-labels for training our models;
  • train-sequence: The video sequences where the train-fine set is selected from. This set contains 2975 × 30 = 89,250 frames;
  • val-sequence: The video sequences where the val-fine set is selected from. This set contains 500 × 30 = 15,000 frames.

评价指标:

  • mean intersection-over-union (mIOU)–语义分割
  • average precision (AP)–实例分割
  • panoptic quality (PQ)–全景分割

消融实验
在这里插入图片描述
与SOTA的对比:C: Cityscapes coarse annotation. V: Cityscapes video. MV: Mapillary Vistas.
在这里插入图片描述

在这里插入图片描述

本文使用的网络结构:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值