Depth Estimation
文章平均质量分 92
depth estimate from monocular/stereo images
m_buddy
大表哥,还有大招吗... PS:本人所有文章均免费公开,任何收费条目请咨询平台
展开
-
ScaleDepth:Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation
单目深度估计模型往往是在与训练集较为接近场景下表现尚可,要是当换了场景之后其泛化能力就出现问题,特别是对于更具实际价值的绝对深度估计任务。原创 2024-07-31 23:57:33 · 262 阅读 · 0 评论 -
Dynamo-Depth:Fixing Unsupervised Depth Estimation for Dynamical Scenes
而3D运动场就是场景中每个像素在3D下的运动估计,之前的论文中有直接对它进行稀疏化约束的,对应实验结果也证明是可行的。基于上面对不同epoch深度估计模型的观察,深度估计上的空洞是在迭代的后期才出现的,那么可以取未经过改进的自监督深度估计(如第5 epoch下)前期模型用于运动目标mask和3D运动场的初始化,有助于整体网络的稳定。这是一份很棒的工作,对自监督深度估计中的运动目标场景做了细致分析,并给出了对应解决方案以提升自监督深度架构对于运动目标深度估计的性能。对原始自监督深度估计的模型观察,文章指出。原创 2024-02-02 00:26:41 · 737 阅读 · 0 评论 -
GEDepth:Ground Embedding for Monocular Depth Estimation
这样可以极大简化深度估计网络学习的难度,自然深度估计的性能就上去了。先不说这个深度估计的实际效果如何,但是这个将复杂的问题简单化的思路是可以借鉴的。文章的核心内容部分在左上部分,也就是如何去构建地面基础深度,文中给出了两种地面深度生成的方法:内外参映射、地面坡度加内外参,自然第二种的精度更高。这个借助内外参可以在平直路面实现基础地面深度估计,什么路面坡度、障碍物什么的都不考虑,单纯计算地面的深度。单纯依靠内外参得到的地面基础深度是相当粗糙的,完全不能用,那么可以借用下图定义的路面坡度。原创 2024-02-01 23:32:08 · 622 阅读 · 0 评论 -
Kick Back & Relax:Learning to Reconstruct the World by Watching SlowTV
这篇文章提出了一种在无标定数据集上自监督估计深度的方法,也就是通过网络预测的方式估计相机的内参,从而完成自监督流程。),因而需要使用网络去预测,对于输入的一个序列只需要一次预测就好了(这部分在代码里面也做了判断),而对于预测部分使用全连阶层预测,只不过对于焦距和中心在输出的时候采用了不同的激活函数,对于焦距预测采用了类似ReLU曲线的Softplus激活函数。在MiDas算法中已经验证了图像的尺寸会对深度估计造成影响,为了使得网络更加鲁棒和具备更强零样本泛化能力,这里对图像进行剪裁和resize操作。原创 2023-08-19 01:15:44 · 228 阅读 · 0 评论 -
Dyna-DepthFormer:Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scene
对于图像特征抽取上文章引入了transformer模块,首先利用帧间关联(运动网络估计出的pose信息)使用deformable attention算子优化当前帧的表达,这里可以看作当前帧特征(query)与相邻帧特征(key,val)做cross-attention。在MonoDepth系列的经典网络中运动估计网络主要负责估计帧间的pose信息,这就导致对场景中的运动目标就没办法处理了,也就导致该种类型网络在运动目标深度的时候会出现“黑洞”的情况。在这篇文章中使用迭代的方式去估计场景中目标的运动变化。原创 2023-08-15 01:04:57 · 278 阅读 · 0 评论 -
DMCP:Multi-Camera Collaborative Depth Prediction via Consistent Structure Estimation
这篇文章对于多视图自监督深度估计在不同相机下的深度表达构建一致性约束,其建立约束的信息来自于相邻相机之间的视角重叠区域,如下图所示依据这些区域可以在loss端通过不同相机之间标定外参构建不同视角之间的深度约束关系,也就是周围相机预测出的深度经过投影之后应该和目的相机的深度值差异最小化。除了在loss层面上对不同视角下深度构建约束之外,还在特征表达的维度在channel层次上对初次深度估计结果进行加权,使得深度表达具备更强表达能力,也使得可以通过迭代优化加权系数的方式级连优化深度估计结果。原创 2023-08-09 00:23:34 · 235 阅读 · 0 评论 -
Metric3D:Towards Zero-shot Metric 3D Prediction from A Single Image
在如MiDasLeReS这些文章中对于来源不同的深度数据集使用归一化深度作为学习目标,则在网络学习的过程中就天然失去了对真实深度和物体尺寸的度量能力。而这篇文章比较明确地指出了影响深度估计尺度变化大的因素就是焦距fff,则对输入的图像或是GT做对应补偿之后就可以学习到具备scale表达能力的深度预测,这个跟车端视觉感知的泛化是一个道理。需要注意的是这里使用到的训练数据集需要预先知道相机的参数信息,且这里使用的相机模型为针孔模型。原创 2023-08-02 00:38:29 · 2771 阅读 · 0 评论 -
EGA-Depth:Efficient Guided Attention for Self-Supervised Multi-Camera Depth Estimation
算法中对使用self-attention做多视图特征聚合,这样一个是计算开销和显存占用比较大,二个每个单独视图需要从众多视图中寻找有用信息会减慢网络收敛速度。对此依据多视图系统中成像特点,这篇文章将当前视图只与左右俩视图(分别对应左右视图的与当前视图相关的一部分)做attention操作,从而极大减少计算和显存开销。节省了这些开销之外就可以尝试增加分辨率、增加多桢输入(从结果上看涨点不明显)这些trick来提升自监督深度估计的性能了。原创 2023-07-31 17:16:28 · 177 阅读 · 0 评论 -
SurroundDepth:Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation
在这篇文章中提出一种多视图融合实现自监督深度估计的方法。使用backbone实现多视图特征抽取之后将这些特征通过multi-scale的self-attention融合,使得多视图中具有视角交叉的图像信息得到交换和融合,特别地在融合过程中借鉴了多尺度和skip-connect的策略用于优化图像特征。原创 2023-07-30 01:37:16 · 233 阅读 · 0 评论 -
FSM:Full Surround Monodepth from Multiple Cameras
深度估计任务作为基础环境感知任务,在基础上构建的3D感知才能更加准确,并且泛化能力更强。单目的自监督深度估计已经有MonoDepth、ManyDepth这些经典深度估计模型了,而这篇文章是对多目自监督深度估计进行探索,在单目自监督深度估计基础上利用多目相机之间相互约束构建了多目自监督深度估计方法。原创 2023-07-29 19:39:24 · 1415 阅读 · 0 评论 -
SC-DepthV3:Robust Self-supervised Monocular Depth Estimation for Dynamic Scenes——论文笔记
介绍:基于运动恢复的自监督深度估计算法中会假设所处的场景是静止的,但是实际中这样的假设是不现实的,因而运动的物体和遮挡就会违反之前的场景先验假设,从而导致对应区域上出现深度预测异常。对于物体的运动和遮挡情况,在之前的工作中有采用直接预测运动场、分割方法标注、光流场、几何先验等方法进行补救,但是作用范围也是有限的。同时,由于物体边界的模糊性也会导致深度估计的边缘模糊。原创 2023-02-19 01:24:24 · 787 阅读 · 0 评论 -
Frequency-Aware Self-Supervised Monocular Depth Estimation——论文笔记
介绍:在自监督深度估计算法中采用光度重构误差作为约束函数,但是这个约束函数却是存在不足的,也就是损失的大小在某些区域不能真实反应深度预测的误差大小,如图像中的高频区域,从而给整体算法Loss带来歧义(深度估计误差于光度重构误差的比例不正相关)。对于这个问题文章提出了两种策略去缓解高频区域处不确定性带来的歧义:1)Ambiguity-Masking:通过感知图像中的高频信息分布(图像梯度变化),给光度重构误差增加一个权重因子,从而缓解高频信息处Loss的不确定性。原创 2023-02-14 01:30:22 · 400 阅读 · 1 评论 -
《Feature-metric Loss for Self-supervised Learning of Depth and Egomotion》论文笔记
参考代码:FeatDepth在自监督深度估计任务中是以光度重构误差作为损失,但是光度重构误差最小时却不一定代表真实深度误差最小,特别是在无纹理区域上,这样的约束经常导致错误的深度估计结果。同时为了减少深度预测错误带来的不连续问题,通常会引入平滑约束,这样会导致在一些深度平面交汇处出现模糊的情况。为了使得重构误差中的单个像素更加具有辨别能力,文章提出了feature metric loss,也就是在特征图的维度实现重建最小化。其中运用到的特征图提取网络来自于自监督的自编码器。除了自编码器使用的重建损失外,还使原创 2022-06-19 15:53:51 · 593 阅读 · 0 评论 -
《Self-Supervised Monocular Scene Flow Estimation》论文笔记
参考代码:self-mono-sf在这篇文章中将单目深度估计与3D场景流组合起来进行预测,并将这两个任务互为补充构建约束表达用于监督。通过双目图像对、光流遮挡掩膜计算、3D空间点约束有效处理自监督过程中存在的问题(如scale问题),文章算法的预测效果见下图所示:文章方法的整体pipeline见下图所示:文章的方法的主体架构是来自于双目匹配网络PWC-Net的,不同点是同时估计3D场景流和单目深度信息,并且其中的场景流不是估计的残差而是在每个level都估计完整场景流。另外一个不同点是采用自监督的形式原创 2022-06-16 00:51:54 · 684 阅读 · 1 评论 -
《NeW CRFs:Neural Window Fully-connected CRFs for Monocular Depth Estimation》论文笔记
参考代码:NeWCRFs1. 概述介绍:在这篇文章中对单目有监督深度估计算法提出了新的解码单元,该解码单元设计的灵感源自于CRFs(Conditional Random Fields)和Swin-Transformer。首先,在该解码单元中在local-window(文中也将其称之为N∗NN*NN∗N个patch的组合)中计算CRFs,这样可以显著减少因全局CRFs带来的计算量巨大问题,这是基于深度本身也存在一定的局部信息依赖性,同时也引入shift-window用于关联不同的local-window原创 2022-04-26 00:08:25 · 3664 阅读 · 0 评论 -
《Revisiting Self-Supervised Monocular Depth Estimation》论文笔记
参考代码:None1. 概述介绍:回顾前几年的一些自监督型深度估计算法,它们都是从不同的角度对自监督深度估计方法进行改进。总结这些算法中对自监督深度估计的改进idea,发现这些算法有的是为了解决场景光照变化对深度估计稳定性的影响;有的是对相机运动下场景中物体遮挡运动进行建模,从而减少对于前期假设先验的违背的影响。而这些改进的idea它们的来源是不同的文章,那么它们组合起来是否能达到比原方法更好的效果呢?或者更进一步怎么将这些idea进行有机组合才能得到最优的优化效果?这篇文章算是对这些问题的初步探究,原创 2022-04-14 01:57:32 · 2835 阅读 · 0 评论 -
《HR-Depth:High Resolution Self-Supervised Monocular Depth Estimation》论文笔记
参考代码:HR-Depth1. 概述介绍:这篇文章研究的是如何在自监督场景下预测得到细节更加丰富的深度结果,在现有的自监督深度估计网络中往往是通过增大输入图像尺寸、3D卷积(如,PackNet-SFM)或是分辨率通道编码(如,nn.PixelShuffle())的方式。这篇文章比较系统探究了自监督深度估计中影响深度估计效果的原因,在文章中将其归纳为两点原因:语义信息与空间信息的不足,它俩分别侧重描述的是物体的类别与边界。对此文章提出了两点改进的点:1)对原本shortcut连接进行优化,获取更好的高原创 2022-04-04 00:44:13 · 1363 阅读 · 0 评论 -
《CamLessMonoDepth:Monocular Depth Estimation with Unknown Camera Parameters》论文笔记
参考代码:None1. 概述介绍:在之前的一些自监督深度估计算法中,往往需要知道相机的内参数作为预先输入。在某些实际场景下为了获得模型对场景的泛化能力,需要有效利用网络上的视频资源,但是其内参是各不相同的。为了使得这些数据能够被有效利用,一种直接的方法便是对相机内参也采用估计的形式得到,具体就是在位姿网络上添加对内参的估计,并参与到整个自监督网络中。这篇文章的工作正是验证该方法的可行性,并对深度估计的解码器部分使用“学习型上采样”进行优化,使得估计出的结果更加精准。PS:文章的方法核心在于位姿估计原创 2022-04-03 01:26:19 · 335 阅读 · 1 评论 -
《MonoIndoor:Towards Good Practice of Self-Supervised Monocular Depth Estimation...》论文笔记
参考代码:None1. 概述介绍:经典的自监督深度估计方法已经在KITTI数据集上取得了较为不错的效果,但是在一些室内或是相机能够自由移动(KITTI场景下相机固定在车上)的场景下,现有的经典自监督深度估计算法就出现了问题。这篇文章研究的便是这些场景下的自监督深度估计,在该文章中指出自监督深度估计在这些场景下性能出现较大幅度下降是因为如下两点原因:在这些场景下深度的范围是变化比较大的,特别是在一些室内场景下,随着视角的变化图像中深度的范围会存在较大范围变化。而在KITTI的场景下最远处是天空其深度原创 2022-03-22 00:31:49 · 4614 阅读 · 0 评论 -
Predict Consistently Depth From Input Video Frames
1. 概述前言: 如今CV在2D领域取得较为不错的结果,随着自动驾驶的兴起越来愈多的注意力被吸引到3D场景下的各式任务中去,其中深度估计算是一种2D到3D的转换桥梁,赋予了2D图像更多信息。在这本篇文章中将会围绕深度估计算法讨论在视频场景下的深度估计任务,并根据本人在该方向上的一些浅薄认知介绍几种适用于视频场景的连续深度估计方法,不足或不全请见谅。单帧图像场景下的深度估计与存在的问题:对于单张图像的深度估计任务在之前的很多文章里面已经介绍过了,如经典监督学习方法Midas和自监督学习方法MonoDep原创 2022-03-05 23:22:38 · 2648 阅读 · 1 评论 -
《DeepVideoMVS:Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion》论文笔记
参考代码:deep-video-mvs1. 概述介绍:这篇文章针对视频深度估计提出一种基于multi-view的连续深度估计方法,该方法有效利用了spatial和temporal上的特征表达,构建一个可以预测具有深度一致性的视频深度估计pipeline。1)在spatial上的表达:其通过FPN网络从输入图像帧中抽取图像特征,之后在stride=2的特征图上通过预先计算好的相机位姿、内参和深度先验bins构建multi-view上的cost-volume;2)在temporal上的表达:其通过在网原创 2022-03-03 00:31:33 · 873 阅读 · 0 评论 -
《Unsupervised Scale-consistent Depth ...》论文笔记
这篇笔记是关于3篇文章的合集,它们分别是:《Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video》《Unsupervised Scale-consistent Depth Learning from Video》《Auto-Rectify Network for Unsupervised IndoorDepth Estimation》参考代码:SC-SfMLearner-Release原创 2022-02-26 01:07:56 · 1018 阅读 · 1 评论 -
《Enforcing geometric constraints of virtual normal for depth prediction》论文笔记
参考代码:VNL_Monocular_Depth_Prediction1. 概述介绍:这篇文章为深度估计提供了一种新的损失函数形式,在深度估计任务中常见的损失函数多以pixel-wise监督的形式出现,因此这些监督损失函数都是利用像素层面的浅层信息进行监督约束的。这样的浅层次深度信息学习自然不能很好学习到GT深度中的一些细节与结构差异信息,因而这篇文章提出将预测深度通过预先假定的相机内参映射到同一模拟空间尺度(3D空间)上进行比较。这里的比较是通过在模拟空间上进行采样,每个采样包含3个点,并通过文章设原创 2022-01-24 23:51:23 · 3011 阅读 · 0 评论 -
《MonoRec:Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera》
参考代码:MonoRec1. 概述介绍:这篇提出了一种纯视觉的自监督深度估计算法,它结合现有实例分割、视觉里程计等视觉相关领域中相关技术,构造出这篇提出的MonoRec单目深度估计方法(在做训练的时候也采用了双目的图像作为输入)。在自监督单目深度估计网络中,一个很大的困难便是需要区分哪些像素相对相机参考系是存在运用的,这是文章引入实例分割方法得到的mask去引导并构建MaskModule去解决存在“运动”的目标。对于深度估计部分,这里是使用”运动“目标mask和由输入图片构建的cost volume去原创 2022-01-19 23:48:39 · 3044 阅读 · 0 评论 -
《LeReS:Learning to Recover 3D Scene Shape from a Single Image》论文笔记
参考代码:AdelaiDepth-LeReS1. 概述介绍:基于单张图像的深度估计网络往往采用scale-shift invariant形式完成深度预测,其是将预测深度和GT深度映射到scale-shift invariant空间,之后再计算loss,自然使用该方法得到的深度在经过点云映射之后是存在扭曲的,这类方法以MiDaS为代表。除scale-shift之外其还存在焦距(focal)上的不确定,因而通过该预测深度构建的三维点云是存在扭曲和尺度不准确问题。对此文章将深度估计问题转换为两个独立功能的子原创 2022-01-11 01:17:22 · 3251 阅读 · 1 评论 -
《From Big to Small:Multi-Scale Local Planar Guidance for Monocular Depth Estimation》论文笔记
参考代码:bts1. 概述导读:从2D图像中估计出深度信息是多解的,对此文章提出了在解码器的多个stage上加上隐式约束,从而引导解码器中适应深度估计特征的生成,从而产生更佳的深度估计结果。其中的隐式约束即为LPG(local planar guidance)层,但是该层实现与其配套的操作较为复杂,直接运用于部署存在较大难度,不过用于teacher网络指导student网络是一个不错的选择。将LPG层的输出取出,得到下图中第二行的结果:可以看到在stride=8stride=8stride=8原创 2021-10-31 23:22:13 · 1108 阅读 · 0 评论 -
《Unsupervised Monocular Depth Learning in Dynamic Scenes》论文笔记
参考代码:depth_and_motion_learning1. 概述导读:这篇文章是在(Depth from Videos in the Wild)的基础上进行改进得到的,在之前的文章中运动区域/物体通过mask标注或是bounding box标注的形式确定,但是这样或多或少会存在对外依赖的问题。对此,文章从 刚性物体运动 在相机前运动的特性进行分析得出如下两个特性:1)其在整幅图像中的占比是较少的,毕竟一般情况下不会运动的背景占据了较大的比例;2)刚性运动的物体其内部运动特性是分段的常量值,也原创 2021-10-24 05:00:00 · 931 阅读 · 1 评论 -
《Depth from Videos in the Wild:Unsupervised Monocular Depth Learning from Unknown Cameras》论文笔记
参考代码:depth_from_video_in_the_wild1. 概述导读:在这篇文章中提出了一种自监督深度估计算法,总体上看文章的算法是与monodepth2方法存在一定程度关联性,它们都是采用视频帧之间的相关性来建立自监督关系的。文章的方法经过凝练主要的工作主要体现为如下几点:1)将相机位姿(旋转和平移矩阵)与相机内参(如果想的话可预测畸变参数)均通过网络预测的形式进行表达,增加对输入数据的适应性;2)采用几何特性(也就是两帧像素计算光度重构损失的时候选择深度最小的为有效像素点)避免遮挡原创 2021-10-21 23:29:35 · 629 阅读 · 1 评论 -
《RAFT-Stereo:Multilevel Recurrent Field Transforms for Stereo Matching》论文笔记
参考代码:RAFT-Stereo1. 概述导读:RAFT算法是非常经典的立体匹配算法,在光流和立体匹配任务中有着广泛的运用。而这篇文章正是基于RAFT并将其运用到了立体匹配中,并且在如下的几个方面进行改进:1)相比原生的RAFT算法钟重点关注X轴(W方向)的视差信息,前提是输入的图像对需要事先经过极线校准;2)在GPU的update阶段使用stride为[8,16,32][8,16,32][8,16,32]的特征图进行运算,这样可以在迭代优化的同时更加增大网络感受野,从而增加对与大范围无/弱纹理区原创 2021-10-18 22:13:32 · 2434 阅读 · 6 评论 -
《Single Image Depth Prediction with Wavelet Decomposition》论文笔记
参考代码:wavelet-monodepth1. 概述导读:对一幅深度图进行分析可以观察到其是由一些平滑区域和边缘区域组合起来的,对应的可以参考频域中的低频和高频分量。而这篇文章正是提出一种基于频域分析(2D haar小波分析)的深度估计算法,不同于直接监督深度图的频域分解分量,文章的方法通过对分辨率最小的深度图进行监督,之后通过在网络的不同层级上预测频域的分量,使得可以从分辨率最小尺度下进行逆频域变换得到对应的深度结果(也就是深度的频域分量不直接参与回归,而是通过将不同频域的不同分量组合得到的深度图原创 2021-10-15 22:46:48 · 685 阅读 · 0 评论 -
Brief Summary of Bokeh Effect Rendering
1. 前言在现有一些厂商的人像背景虚化效果中,能够明显看到其是对人像进行了分割,之后再单独将背景进行虚化,最后将人像区域与虚化之后的背景融合起来(这里面需要处理很多画质相关的细节问题)。其效果在目前看来已经有了较大的进步,下图是最新发布的VIVO X70处理出来的虚化结果(注:图片来源于网络,侵删):可以看到其参照莱卡相机的虚化效果,对应对输入的图像进行虚化处理,这样的效果在外行人看来已经像那么回事了(尽管还会存在一些badcase,但是相信明天会更好。。。)。单反相机拍摄的背景虚化效果一直是手机相原创 2021-09-23 23:05:10 · 624 阅读 · 0 评论 -
《STTR:Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》
参考代码:stereo-transformer1. 概述导读:这篇文章通过transformer机制实现了一种立体匹配算法(STTR),在该方法中将立体匹配问题转换为序列上的响应问题,使用未知信息编码与注意力机制替换了传统匹配方法中的cost volume策略。由于替换了cost volume解除了预定max-disparity假设的限制,增强了网络的泛化表达能力。在估计视差图的同时显示地估计遮挡区域的概率结果。此外,为了寻找右视图到左视图的最佳匹配,文中对其中的匹配矩阵添加熵约束,从而实现对匹配过程原创 2021-09-13 22:56:31 · 2124 阅读 · 1 评论 -
《WSVD:Web Stereo Video Supervision for Depth Prediction from Dynamic Scenes》论文笔记
参考代码:wsvd_test1. 概述导读:在这篇文章中提出了一种基于光流估计的深度估计网络。该方法首先使用左右双目图像作为输入,并从中估计出光流信息,之后按照估计的光流对图像进行warp,这样就得到深度估计网络需要的3个(warp之后的图像1、光流、图像2)输入。接下来经过编解码网络之后实现对深度的估计。同时为了获得大量且场景多样化的双目3D(左右)图像,文章通过在YouTube中筛选的方式确定了文章使用的WSVD数据集。由于这些数据来源是未知的(其中的焦距、基线等)所以文章提出了一种以归一化梯度为原创 2021-09-01 01:07:31 · 648 阅读 · 0 评论 -
《Learning optical flow from still images》论文笔记
主页:home page参考代码:depthstillation1. 概述导读:在这篇文章中提出了一个生成光流训练数据的策略,用以弥补真实光流训练数据的不足。文章的策略首先使用单目深度估计网络(MiDas或MeGaDepth)生成单张图像的深度估计结果。对于光流估计所需的另外一个视图图像,文章通过采样生成相机内参、平移矩阵、旋转矩阵、相机焦距、双目基线的方式,在给预测深度基础上使用双目视觉映射关系生成另外一个视图的图像,并且可以对应获取该图像对的光流。在生成另外一个视图的图像过程中使用优化策略解决了原创 2021-09-04 23:56:16 · 632 阅读 · 0 评论 -
《Learning Stereo from Single Images》论文笔记
参考代码:stereo-from-mono1. 概述导读:在进行立体匹配的过程中成对且带标签的训练数据是很难去获取的,对此现有的很多方法都是在虚拟的合成数据(如SceneFlow、FlayingThings3D等数据集)上训练完成的,自然其在实际多样化的场景中泛化迁移能力是很弱的。对此文章通过使用MiDas对任意的输入图像进行深度估计,并将深度图转换到视差图,之后按照视差图对源图像进行变换得到另外一个视图,其中会对生成的另外一个视图进行修复和补偿优化从而构建一个双目立体图像对。自此,双目立体图像对构造原创 2021-08-14 15:21:13 · 549 阅读 · 1 评论 -
《Robust Consistent Video Depth Estimation》论文笔记
主页与代码地址:robust_cvd1. 概述导读:这篇文章的目的是为了在视频场景下生成稳定的深度估计结果,其提出的算法可以在一个单目视频中估计出一致的深度图和相机位姿。文章首先会使用MiDas为视频中的单帧图像做初始深度估计(主要用于提供深度scale参数),以及使用Ceres Library上计算相机的初始位姿信息。之后再在输入的视频序列上使用在线finetune形式交替进行深度估计结果与相机位姿优化。在上面的finetune优化中使用到了一个几何优化过程去生成稳定平滑地相机移动轨迹(表征为相机关原创 2021-07-02 00:49:02 · 5458 阅读 · 1 评论 -
《Boosting Monocular Depth Estimation Models to High-Resolution ...》论文笔记
参考代码:BoostingMonocularDepth论文:Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging1. 概述导读:这篇文章提出了一种使用现有深度估计模型(MiDas)生成具有更高分辨率/更多细节表现深度图的方法(同时保持高分辨率和深度一致性是现存的挑战)。文章探究了输入的图像分辨率/图像中的结构信息是如何影响最后的深度估计的,原创 2021-06-14 23:48:04 · 2304 阅读 · 5 评论 -
《S2R-DepthNet:Learning a Generalizable Depth-specific Structural Representation》论文笔记
参考代码:官方:S2R-DepthNet,但是2021-0607通过该入口无法进入了,后续再观察。未知版本:S2R-DepthNet1. 概述导读:这篇文章经过分析人对场景的3D感知,发现场景中的空间结构信息在深度感知中扮演了至关重要的作用。因而文章首先学习得到一个针对深度的结构表达,这个表达中抓住了深度估计中的关键信息,排除一些数据中无关的风格信息。这样使得深度网络着力关注场景的结构信息,使得即使在合成数据场景训练的模型也具有良好的泛化能力。文章方法的组成可以划分为下面的3个部分:1)用于原创 2021-06-08 00:47:18 · 1912 阅读 · 8 评论 -
《Structure-Guided Ranking Loss for Single Image Depth Prediction》论文笔记
参考代码:Structure-Guided-Ranking-Loss1. 概述导读:在这篇文章中提出了一种在监督深度估计方法中的损失函数。该方法是属于pair-wise ranking loss族的,文章通过利用目标的分割结果提出了一些新的采样策略,也就是低层次的边缘采样与目标实例级别的采样。从而极大增强了损失函数的约束能力,提升了最后深度图预测在边缘部分的锐化成都,以及目标内部的一致性内在属性。文章将之前一些方法的损失函数进行比较,其结果在边缘与目标内部均得到了不错的提升,见下图所示:理解下原创 2021-06-07 01:19:35 · 1211 阅读 · 0 评论 -
《Towards Robust Monocular Depth Estimation:Mixing Datasets for Zero-shot Cross-dataset Transfer》论文笔记
参考代码:MiDaS1. 概述导读:这篇文章提出了一种监督的深度估计方法,其中使用一些很有价值的策略使得最后深度估计的结果具有较大提升。具体来讲文章的策略可以归纳为:1)使用多个深度数据集(各自拥有不同的scale和shift属性)加入进行训练,增大数据量与实现场景的互补;2)提出了一种scale-shift invariable的loss用于去监督深度的回归过程,从而使得可以更加有效使用现有数据;3)采用从3D电影中进行采样的方式扩充数据集,从而进一步增加数据量;4)使用带有原则属性的多目标原创 2021-06-06 23:49:28 · 2706 阅读 · 0 评论