自监督单目深度估计

前几天阅读了一篇论文,于是忍不住写下本次的记录,个人见解哦!

题目:

Deep Digging into the Generalization of Self-Supervised Monocular Depth

Estimation深入研究自监督单目深度估计的泛化

研究目标:

使用CNN-Transformer混合模型,实现单目深度估计的泛化能力提升

贡献总结:

  1. CNN主要学习基于纹理的表示,而Transformers几乎学习基于形状的表示
  2. 提出了一种具有多级特征聚合的CNN-Transformer混合网络,补充了形状偏差和空间局部偏差,以实现单目深度估计的泛化
  3. 大量的实验证明了所提方法的有效性,我们的方法在KITTI数据集、各种分布外数据集和纹理偏移数据集上取得了最先进的性能

方法学习

1)基于CNN的模型严重依赖纹理,而基于Transformer的模型依赖于形状进行单目深度估计任务。

2)基于纹理的表示会导致场景变化、照明变化和风格变化等纹理偏移的泛化性能较差。

3)基于形状的表示比基于纹理的表示更有助于广义单目深度模型。

模型结构:

1.CNN-Transformer 编码器:由多头自注意力 MSA 层、多层感知器 MLP 层和层范数 LN 层组成

2. 注意连接模块(ACM):它从空间域和通道域产生注意力权重(Fu 等人,2019 年)。它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成。

3. 特征融合解码器(FFD):FFD 获取编码器特征 Z、注意力映射 AA 和通过残差卷积层的最后一个 Transformer 层的输出特征 X。解码器通过单个卷积层 Conv 和通道归一化 CN 将特征 X

---------------------------------------------------------------------------------------------------------------------------------个人总结:本篇论文的出发点是由于大多数的研究模型泛化能力比较差,通过作者的观察和探索,结合了cnntransformer的特点,能够应用于多种数据集。其中比较值得注意的是编码器中使用了多头注意力层,它从空间域和通道域产生注意力权重(Fu 等人,2019 年)。它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成,这样可以大大提高图像的特征提取性能。

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值