论文笔记:Excavating the Potential Capacity of Self-Supervised Monocular Depth Estimation

中文标题:挖掘自监督单眼深度估计的潜力

——针对基于双目匹配的单目深度估计

创新点

  1. 数据嫁接,使模型能够学习除垂直图像位置外更有效的线索。
  2. 首次在没有任何辅助网络的情况下将自蒸馏应用于MDE,并基于面向训练的选择性后处理方法生成更好的伪标记。
  3. 提出有效的全尺寸模型,增强约束,同时增强编码器的特异性。

数据嫁接

问题

模型推测物体深度靠其所在的垂直位置,文章推测这是由于将整幅图像送入网络,使网络易于学习到深度在垂直方向上的分布。
在这里插入图片描述

解决方法

  • 双目匹配中,点的匹配均位于同一水平线上,所以可以在竖直方向上对图像进行嫁接,打乱网络对于竖直方向上深度规律的学习,使网络更专注学习区域内语义信息。

全尺度模型

问题

  • 传统多尺度深度补全网络为编码器与解码器的结构
  • 其中编码器学习抽象及普遍的特征,解码器学习深度估计相关的特征
  • 直觉上,对模型施加更多的约束有助于提升性能

解决方法

在这里插入图片描述

  1. 在编码器上添加深度预测模块
  2. 在编码器预测模块与残差模块之间添加RSU模块[39]
  3. 使用RSU模块构建Decoder

自蒸馏

思路

  1. 自蒸馏是为模型产生更多监督信号的方法
  2. 在全尺寸深度估计过程中,最好的深度预测值不一定产生于最大尺寸

解决方法

  1. 在所有尺度的深度预测结果中选取最佳值
    在这里插入图片描述
    在像素域寻找深度最佳预测值,形成伪标签。
  2. 使用为标签作为自监督信号,组成自蒸馏损失函数。
    在这里插入图片描述

参考文献

[1] Peng R, Wang R, Lai Y, et al. Excavating the potential capacity of self-supervised monocular depth estimation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15560-15569.
[39] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, and Martin Jagersand. U2-Net: Going deeper with nested U-structure for salient object detection. PR, page 107404, 20

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BlueagleAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值