AdaBins: Depth Estimation using Adaptive Bins

最新推荐文章于 2024-05-31 13:56:35 发布

MengYa_DreamZ

最新推荐文章于 2024-05-31 13:56:35 发布

阅读量3k

点赞数 5

分类专栏：【论文研读-图像处理】文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/MengYa_Dream/article/details/120318141

版权

【论文研读-图像处理】专栏收录该内容

39 篇文章 27 订阅

订阅专栏

论文来源

code

本文仅作学习分享

摘要

本文的核心：单张RGB图像 → 估计高质量稠密深度图
本文的工作流程：一个基线编码解码卷积网络＋基于transformer的架构块block，
核心:AdaBins,将深度范围划分为bins，其中心值为自适应估计每张图像；最终的深度值是bin center的线性组合。

介绍

计算机视觉领域的经典问题：输入单张RGB图像→估计其高质量稠密深度图。
本文动机：推测当前的架构对输出值没有作足够的全局分析；卷积层处理全局信息条件苛刻。
工作概述：坚信全局处理对高分辨率影响效果显著；因而，对传统编码解码器输出的图像进行全局统计分析，并利用一个在高分辨率情况下学习的后处理构建块以优化输出图；进而分析和修整深度的分布值。
不同RGB输入对应的深度分布会有很大的不同——深度直方图

本文研究：一种网络学习自适应方法，关注于输入图像场景中更容易出现深度范围的区域。

方法

动机：前人的工作，建议将深度范围划分为确定宽度的固定数量的bin，其有所限制。作者想将其进一步泛化：首先，提出计算根据输入场景的特征动态变化的自适应容器；其次，分类方法会导致深度值离散化，导致视觉质量差，深度不连续现象明显，预测的最终深度值作为一个线性组合的bin中心；因而能够将分类的优点与深度图回归的优点结合起来。

AdaBins细节：4种架构选择，bins→fixed/trained；bins width→fixed/trained

重点分析：

前人工作：encoder - attention - decoder;
本文工作：encoder - decoder - attention；
工作原因：在空间分辨率更高的张量上使用注意力可以获得更好的结果。
两个版块：an encoder-decoder block + AdaBins Module

An encoder-decoder block AdaBins Module
a pre-trained EfficientNet B5 encoder GPU硬件限制，输入H/2 W/2
a standard feature upsampling decoder 模块1输出的仅为 a tensor $x_{d}$ -decoded features

基于[1]的网络,修改：

1.EfficientNet B5

2.a diffierent loss function
见详细介绍

Mini-ViT
估计深度范围的子区间，给定的图像同时需要局部架构信息和全局分布信息

如果利用全局attention——计算bin widths vector——昂贵、复杂

灵感：vision transformers获取bin width

Bin-widths
基于transformers需要解决：

mViT：接收的是a tensor of decoded features

transformer：需要的输入是a sequence of fixed size vectors

方案：利用一个卷积块（Conv p × p），得到a tensor of size (h/p × w/p × E)

Transformer patch embeddings + learned positional encodings → input transformer
Range attention maps
transformer → Bin Widths & 更多的全局信息

keys：计算点积的注意力权重之间的像素特征

Queries ： transformer输出嵌入

则网络将来自transformer的自适应全局信息集成到解码特征的局部信息中。

final depth → 全局信息 R + 局部信息 b

Hybrid regression
R：a softmax activation → obtain N-channels

c(b)：bin中心深度

depth=该像素处的Softmax分数与深度bin中心c(b)的线性组合

估计最有可能的bin的中心vs 估计所有bin中心的线性组合，能够预测平滑的深度图，而不需要离散的伪影。

Loss function Pixel-wise depth loss Bin-center density loss,

损失函数&度量指标：

SI Scale-Invariant loss	尺度不变损失YES	像素深度损失
bi-directional chamfer loss	双向槽损失YES	Bin中心稠密损失
L1 loss & LAD & LAE	L1范数损失函数	把目标值与估计值的绝对差值的总和最小化
RMSE Root Mean Square Error	均方根误差	衡量观测值与真实值之间的偏差
SSIM structural similarity index	结构相似性指数	度量两幅图像间的结构相似性
REL average relative error	平均相对误差	反映测量的可信度
Sq.Rel squared Relative difference	相对差平方平均误差
average（ $Log_{10}$ ）error	平均（ $Log_{10}$ ）误差
threshold accuracy ( $\delta _{i}$ )	阈值准确性

实验

数据集、度量指标、与最新技术相比、消融实验

总结

本文重点：AdaBins（CNN+Transformer）
期望：研究在高分辨率的信息全局处理是否也可以提高其他任务的性能，如分割，正常估计，和多图像的三维重建。

MengYa_DreamZ

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
25
评论
AdaBins: Depth Estimation using Adaptive Bins

细品：AdaBins: Depth Estimation using Adaptive Binsestimating a high quality dense depth map from a single RGB input image.CNN + transformer主要讲解AdaBins板块整理相关损失函数和误差分析单张RGB图像 → 估计高质量稠密深度图
复制链接

扫一扫

专栏目录

An encoder-decoder block	AdaBins Module
a pre-trained EfficientNet B5 encoder	GPU硬件限制，输入H/2 W/2
a standard feature upsampling decoder	模块1输出的仅为 a tensor $x_{d}$ -decoded features
基于[1]的网络,修改： 1.EfficientNet B5 2.a diffierent loss function	见详细介绍

Mini-ViT	估计深度范围的子区间，给定的图像同时需要局部架构信息和全局分布信息如果利用全局attention——计算bin widths vector——昂贵、复杂灵感：vision transformers获取bin width
Bin-widths	基于transformers需要解决： mViT：接收的是a tensor of decoded features transformer：需要的输入是a sequence of fixed size vectors 方案：利用一个卷积块（Conv p × p），得到a tensor of size (h/p × w/p × E)
Transformer	patch embeddings + learned positional encodings → input transformer
Range attention maps	transformer → Bin Widths & 更多的全局信息 keys：计算点积的注意力权重之间的像素特征 Queries ： transformer输出嵌入则网络将来自transformer的自适应全局信息集成到解码特征的局部信息中。 final depth → 全局信息 R + 局部信息 b
Hybrid regression	R：a softmax activation → obtain N-channels c(b)：bin中心深度 depth=该像素处的Softmax分数与深度bin中心c(b)的线性组合估计最有可能的bin的中心vs 估计所有bin中心的线性组合，能够预测平滑的深度图，而不需要离散的伪影。
Loss function	Pixel-wise depth loss	Bin-center density loss,

AdaBins: Depth Estimation using Adaptive Bins

摘要

介绍

相关工作

方法

实验

总结

“相关推荐”对你有帮助么？