每天一篇论文 291/365 DSNet: Joint Learning for Scene Segmentation and Disparity Estimation

原文
https://mp.weixin.qq.com/s/Uter5evHzR9Wgrdwb4zVRw

摘要

近年来,研究者们尝试了场景语义的联合预测和光流估计,证明了两种任务之间的相互改进。此外,深度信息对于场景理解也是必不可少的,而视差估计对于密集深度图的输出也是必不可少的。这种任务与光流估计有很大的相似性,因为它们都可以转化为在两个图像帧的一个位置捕获差异的问题。然而,据我们所知,目前用于语义和差异联合学习的网络还很少。此外,由于深度语义信息和视差特征映射可以相互学习,因此我们发现不需要使用两个独立的编码模块来分别提取语义和视差特征。因此,我们提出了一个统一的多任务结构DSNet,用于同时估计语义和偏差信息。在我们的模型中,由编码模块ResNet从左、右图像中提取语义特征,通过一个新的匹配模块进行像素到像素的匹配来获得深度视差特征。此外,我们还利用视差图对右图像的深层特征进行扭曲运算,以解决语义标签缺失的问题。通过大量实验证明了该方法的有效性。

贡献

首先,我们提出了一个轻量网络DSNet,用于视差估计和场景分析。得益于一系列共享的卷积编码模块,DSNet能够有效地将语义信息和视差信息一起生成,超过了以往分别提取卷积特征进行语义分割和视差估计的模型。
其次,通过大量的实验,我们设计了一个有效的匹配模块来学习语义和差异信息,在两个任务之间架起了桥梁。最后,我们提出了一种训练方法来有效地利用单一网络中语义和差异信息的标注。

方法

首先介绍了DSNet的联合架构。通过一系列的匹配操作,我们可以捕捉到左右图像之间语义特征的变化。因此语义特征的融合可以用于视差估计。此外,我们还提出了一种有效的训练方法来提高我们提出的网络的性能,即使用更有效的优化函数和扭曲操作来进行视差和场景分析。
在这里插入图片描述

我们将语义编码器作为整个网络的主导基础。从图1可以看出,场景解析和视差估计这两个分支共享相同的ResNet块。以左图像XL和右图像XR为输入,每个块的输出为语义特征fL和fR,设计了一个匹配模块来获取fL和fR之间的位置特征,生成视差图。下一节将介绍匹配模块的详细信息。对于场景分析的丢失层,我们考虑了不同类之间像素数量的不平衡。例如,属于道路类的像素数远远多于属于行人或车辆类的像素数。

Loss function 设计

在这里插入图片描述

A,B,C部分关联结构,融合方法

在这里插入图片描述

在这里插入图片描述

结果
与其他算法对比本文的联合网络75.0%

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值