自监督单目深度估计

最新推荐文章于 2024-07-20 06:19:20 发布

小刘是学生

最新推荐文章于 2024-07-20 06:19:20 发布

阅读量192

点赞数 6

文章标签：人工智能论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67695275/article/details/138354360

版权

前几天阅读了一篇论文，于是忍不住写下本次的记录，个人见解哦！

题目：

Deep Digging into the Generalization of Self-Supervised Monocular Depth

Estimation（深入研究自监督单目深度估计的泛化）

研究目标：

使用CNN-Transformer混合模型，实现单目深度估计的泛化能力提升

贡献总结：

CNN主要学习基于纹理的表示，而Transformers几乎学习基于形状的表示
提出了一种具有多级特征聚合的CNN-Transformer混合网络，补充了形状偏差和空间局部偏差，以实现单目深度估计的泛化
大量的实验证明了所提方法的有效性，我们的方法在KITTI数据集、各种分布外数据集和纹理偏移数据集上取得了最先进的性能

方法学习：

1）基于CNN的模型严重依赖纹理，而基于Transformer的模型依赖于形状进行单目深度估计任务。

2）基于纹理的表示会导致场景变化、照明变化和风格变化等纹理偏移的泛化性能较差。

3）基于形状的表示比基于纹理的表示更有助于广义单目深度模型。

模型结构：

1.CNN-Transformer 编码器：由多头自注意力（MSA）层、多层感知器（MLP）层和层范数（LN）层组成

2. 注意连接模块（ACM）：它从空间域和通道域产生注意力权重（Fu 等人，2019 年）。它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成。

3. 特征融合解码器（FFD）：FFD 获取编码器特征 Z、注意力映射 A、A 和通过残差卷积层的最后一个 Transformer 层的输出特征 X。解码器通过单个卷积层（Conv）和通道归一化（CN）将特征 X。

---------------------------------------------------------------------------------------------------------------------------------个人总结：本篇论文的出发点是由于大多数的研究模型泛化能力比较差，通过作者的观察和探索，结合了cnn和transformer的特点，能够应用于多种数据集。其中比较值得注意的是编码器中使用了多头注意力层，它从空间域和通道域产生注意力权重（Fu 等人，2019 年）。它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成，这样可以大大提高图像的特征提取性能。

小刘是学生

关注

6
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
自监督单目深度估计

其中比较值得注意的是编码器中使用了多头注意力层，它从空间域和通道域产生注意力权重（它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成，这样可以大大提高图像的特征提取性能。1）基于CNN的模型严重依赖纹理，而基于Transformer的模型依赖于形状进行单目深度估计任务。本篇论文的出发点是由于大多数的研究模型泛化能力比较差，通过作者的观察和探索，结合了。它由位置注意力、通道注意力模块和从两个注意力收集重要信息的融合块组成。3）基于形状的表示比基于纹理的表示更有助于广义单目深度模型。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。