Lite-Mono: A Lightweight CNN and Transformer Architecture forSelf-Supervised MDE

本文提出了一种名为Lite-Mono的轻量级模型,用于自监督单眼深度估计。通过结合连续扩展卷积模块(CDC)和局部-全局特征交互模块(LGFI),Lite-Mono在保持模型小的同时,能有效提取多尺度局部特征和全局信息,与MonoDepth2相比,精度更高,参数减少了约80%。此模型适用于资源有限的边缘设备,如机器人和自动驾驶应用。
摘要由CSDN通过智能技术生成

摘要

不需要地面事实进行训练的自监督单眼深度估计近年来引起了人们的关注。设计轻量级但有效的模型,以便它们可以部署在边缘设备上是非常有趣的。许多现有的架构都受益于使用较重的骨干,而牺牲了模型的大小。本文通过一个轻量级的体系结构实现了类似的结果。具体地说,研究了cnn和Transformer的有效组合,并提出了一种称为Lite-Mono的混合结构。提出了一种连续扩展卷积Consecutive Dilated Convolutions(CDC)模块和一个局部-全局特征交互Local-Global Features Interaction(LGFI)模块。前者用于提取丰富的多尺度局部特征,后者利用自注意机制将随机的全局信息编码到特征中。实验表明,Lite-Mono在精度上大大优于MonoDepth2,可训练参数减少了约80%。

引言

  1. 应用:机器人、自动驾驶(深度线索)
  2. CNN现况:【10、11、22】回归方法
  3. self-supervised的好处:GT缺少大量精确密集的深度,自监督近些年开始发展。
  4. 自监督方法:【5、14、15、41、45】这些方法将深度估计任务作为一种新的视图合成问题,并最小化图像重建损失
  5. 立体方法的不足-->使用视频训练(需要位姿):使用立体图像时,摄像机运动是已知的,因此采用单深度估计网络来预测深度。但如果只使用单
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值