![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
CV顶会(刊)论文阅读
文章平均质量分 92
单目立体匹配、双目立体匹配、多视图几何、光流估计、图像超分辨率、领域自适应方向的论文阅读
CV科研随想录
关关难过关关过,前路漫漫亦灿烂!
展开
-
论文阅读《Wavelet-Based Texture Reformation Network for Image Super-Resolution》
这篇论文提出了一种基于小波变换的纹理重构网络(WTRN),用于从参考图像中提取和迁移纹理信息,提高低分辨率图像的质量。该方法利用小波变换将纹理特征分解为不同频率的子带,分别进行特征匹配和特征交换,同时引入了一种基于小波的纹理对抗损失函数,使得生成的图像具有更真实的纹理效果。该方法在四个数据集上的实验结果表明,它优于之前的RefSR方法。图像超分辨率的方法分为三种:基于失真的方法,基于感知的方法和基于参考的方法。原创 2023-12-25 14:07:35 · 1113 阅读 · 1 评论 -
论文阅读《Efficient and Explicit Modelling of Image Hierarchies for Image Restoration》
图像复原任务旨在从低分辨率的图像(模糊,子采样,噪声污染,JPEG压缩)中恢复高质量的图像。图像复原是一个不适定的放问题,因为图像在退化过程中丢失了重要的信息。因此,图像复原任务需要充分挖掘低分辨率图像中的丰富信息。自然场景下的图像包含全局、区域与局部三个尺度的信息。局部信息指的几个像素跨度的特征信息如边缘与局部颜色特征,这些信息可以通过小卷积核来获取。原创 2023-12-27 22:45:25 · 1311 阅读 · 0 评论 -
论文阅读《Restormer: Efficient Transformer for High-Resolution Image Restoration》
图像恢复任务旨在从受到各种扰动(噪声、模糊、雨滴等)影响的低质量图像中恢复出高质量图像,该任务需要强大的先验知识作为引导。基于卷积神经网络的方法感受野受限,无法对像素间的长程依赖进行建模,且在推理过程卷积核的参数固定,无法应对多变的输入内容。相对而言,Transformer中的自注意力机制可以解决以上的问题,而传统的Transformer空间注意力计算过程显存消耗大。为了解决以上的问题,文中提出一种高效的Transformer框架(Restormer)用于图像恢复任务。原创 2023-12-27 13:39:15 · 1424 阅读 · 0 评论 -
论文阅读《LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs》
本文针对 3D 卷积过程中深度分离卷积与大卷积核卷积难以有效应用的难题,提出了空间分区卷积与与适用于3D卷积过程的大卷积核卷积方式,通过在空间上相邻的位置之间共享权重来将大卷积核重新映射为小卷积核,与普通大卷积核相比,该方法的延迟更短,而且空间维度之间的权重共享可以克服过拟合问题,实验数据表明该方法在多个下游任务中有较好的性能表现。原创 2023-04-06 13:48:33 · 729 阅读 · 0 评论 -
ELFNet: Evidential Local-global Fusion for Stereo Matching
针对现有立体匹配模型面临可靠性和跨域泛化的问题,本文提出了Evidential Local-global Fusion(ELF)框架,该框架包含了不确信估计和置信度感知融合模块,并基于模糊不确定性和认知不确定性来预测视差图。此外,该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。原创 2023-08-24 22:20:15 · 442 阅读 · 0 评论 -
论文阅读《Domain Generalized Stereo Matching via Hierarchical Visual Transformation》
立体匹配模型是近年来的研究热点。但是,现有的方法过分依赖特定数据集上的简单特征,导致在新的数据集上泛化能力不强。现有的立体匹配方法在训练过程中容易学习合成数据集中的表面特征(捷径特征 shortcut features)。这些特征主要有两种伪影(artifacts):一是局部颜色统计特征的一致性,二是对局部色度特征的过度依赖。这些特征不能有效地适应不同域之间的迁移。之前的研究主要关注于(1)利用目标域的有标签数据对模型进行微调。(2)同时使用有标签的合成数据集和无标签的真实数据集来训练域自适应立体匹配模型。原创 2023-12-10 19:55:59 · 1289 阅读 · 1 评论 -
论文阅读《Spherical Space Feature Decomposition for Guided Depth Map Super-Resolution》
GDSR是一种多模态图像处理的热门话题,它的目的是利用同一场景中的高分辨率(HR)RGB图像中的额外信息来放大低分辨率(LR)深度图。这个任务的关键步骤是有效地提取RGB/深度特征中的域共享和域独有信息。此外,还需要解决三个细节问题,即模糊的边缘,噪声的表面和RGB纹理伪影。为了解决这些问题,文中提出了一种球形空间特征分解网络(SSDNet)。为了更好地建模跨模态特征,使用基于Restormer块的RGB/深度编码器来提取局部-全局特征。原创 2023-12-25 13:56:04 · 980 阅读 · 0 评论 -
论文阅读《SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map Super-Resolutio》
深度图的图像引导超分辨率在各个领域有着广泛的应用。但是,复杂的成像环境会导致深度图的结构边缘变得模糊。如图2所示,从梯度图可以看出,它能够很好地表现出图像的结构信息。从频谱图可以看出,高分辨率的深度图和RGB图像都包含了丰富的高频和低频信息,而低分辨率的深度图则丢失了高频信息。基于这些观察,本文关注于利用梯度域和频域来进行深度图的超分辨率。在梯度域中,使用梯度校准模块(GCM)来提取梯度特征的结构表达信息。原创 2023-12-15 22:25:35 · 977 阅读 · 0 评论 -
论文阅读《Parameterized Cost Volume for Stereo Matching》
现有的立体匹配方法针对大视差场景预测时时间和显存消耗成本大,限制了模型在现实世界的应用。先前的研究工作主要聚焦于使用局部信息的动态代价体进行迭代优化,此类方法虽可以节省内存,但由于缺乏全局视差视野而需要更多的迭代步数才能收敛到目标视差,如图1(a) 所示。为此,文中提出使用高斯分布来编码视差空间。原创 2023-12-14 22:16:30 · 1240 阅读 · 1 评论 -
论文阅读《DPS-Net: Deep Polarimetric Stereo Depth Estimation》
立体匹配模型难以处理无纹理场景的匹配,现有的方法通常假设物体表面是光滑的,或者光照是受控的,这些条件在实际场景中很难满足,只适用于物体级别的重建或者特定的拍摄环境。此外,这些方法还难以处理偏振图像中表面法向的固有歧义性,例如方位角和天顶角的歧义性(指从偏振图像中恢复表面法向量时,由于不同的反射类型和非线性方程的影响,可能存在多个解,导致法向量的方位角和天顶角不唯一),这些歧义性需要依赖于预先计算的粗糙深度或者已知的反射类型来解决。原创 2023-12-14 00:46:20 · 1219 阅读 · 1 评论 -
论文阅读《Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching》
当前基于相关性代价体的立体匹配方法在跨域预测上表现不佳,导致模型在现实世界应用困难。大场景差异、不平衡的视差分布是带来噪声与特征失真的主要原因,也降低了模型的鲁棒性。此外,感受野受限限制模型获得全局信息,使模型对不同数据集敏感。针对该问题,文中提出一种动态计算相关性的方法 Uncertainty Guided Adaptive Correlation (UGAC) 用于调整模型适应不同场景。在warp过程使用一个基于方差的不确定估计模块自适应调整采样区域。原创 2023-12-13 16:38:11 · 882 阅读 · 3 评论 -
论文阅读《High-frequency Stereo Matching Network》
在立体匹配研究领域,当前的方法在估计视差图的细微特征方面表现不足,尤其是在对象的边缘性能方面。此外,弱纹理区域的混淆匹配和细小物体的错误匹配也是模型性能表现不佳的重要因素。在迭代式的方法中,现有的基于GRU的结构存在一定局限性,用于生成视差图更新的信息与GRU的隐藏状态信息耦合在一起,使得在隐藏状态中保持细微的细节变得困难。原创 2023-12-12 00:20:21 · 1337 阅读 · 1 评论 -
论文阅读《Masked representation learning for domain generalized stereo matching》
近年来,立体匹配的领域泛化能力受到了越来越多的关注,但是现有的方法往往忽略了模型在不同训练阶段的泛化性能变化。如图1所示。现有的工作常使用带有标签的目标域样本来测试模型的泛化性能,而现实世界里,目标域数据集的标签是难以获取的。本文基于掩码表征学习和多任务学习的思想,提出了一种简单有效的掩码表征方法,用于提升立体匹配的领域泛化性能。具体地,将掩码后的左视图和完整的右视图作为模型的输入,然后利用一个轻量级的解码器和一个特征提取模块来重建完整的左视图。原创 2023-12-11 15:14:18 · 1196 阅读 · 0 评论 -
论文阅读《Unsupervised Deep Asymmetric Stereo Matching with Spatially-Adaptive Self-Similarity》
无监督立体匹配因摆脱视差标签的限制而广受关注,而多数无监督立体匹配算法都基于左右视图具有一致的视觉属性的前提,当该前提不成立时模型可能会坍塌。在本文中,作者提出一种空间自适应的自相似(SASS)用于无监督非对称的立体匹配。该方法通过扩展自相似来自适应生成对非对称鲁棒的深度特征。为了学习到有效的采样模式,作者提出了一种带有正负权重的对比相似性损失,该损失进一步引导SASS生成对称性不敏感的特征,同时保持同名点特征之间的一致性。在多个数据集上的实验结果表明该方法可以应对不同尺度与不同非对称的噪声条件。原创 2023-12-10 00:37:00 · 846 阅读 · 1 评论 -
论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》
事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督邻域自适应作为该问题的一种解决方法,传统的无监督自适应方法依赖于源域的标签值,但源域的视差标签值难以获取。针对该问题,文中提出一种新的无监督域自适应密集时间立体匹配方法(ADES)用于缓解目标域域源域之间的域偏差导致的模型性能下降问题。首先,文中提出一种自监督模块通过图像重建来训练在目标域的模型。与此同时,在源域上训练一个伪影去除网络协助去除重建图像中的间歇性伪影。原创 2023-12-08 21:59:24 · 1201 阅读 · 1 评论 -
论文阅读《Robust Monocular Depth Estimation under Challenging Conditions》
现有SOTA的单目估计方法在理想的环境下能得到满意的结果,而在一些极端光照与天气的情况下往往会失效。md4all。该方法首先生成一组与正常样本对应的复杂样本,然后通过生成的样本来计算相应原始视图上的标准损失,引导其自监督或者全监督来训练模型,使得模型在不同条件下能够恢复原始的信息。在nuScenes 和 Oxford RobotCar 数据集上的结果表明该方法的有效性,在标准条件下和极端条件下的表现都超过了之前的工作。原创 2023-09-06 17:32:24 · 684 阅读 · 1 评论 -
论文阅读《Centralized Feature Pyramid for Object Detection》
特征金字塔模块在众多计算机视觉任务中都有优异的性能表现。针对现有的方法过渡关注于层间的特征交互而忽略了层内的特征交互的问题,本文提出一种基于全局显式集中式特征调节的中心化的特征金字塔(Centralized Feature Pyramid, CFP)用于目标检测任务。其中,发明了一个空间视觉中心策略用于捕获信息,包含一个捕获全局长程依赖的轻量化MLP与一个捕获局部角落区域信息的可学习的视觉中心机制;原创 2023-05-08 16:22:02 · 845 阅读 · 2 评论 -
论文阅读《PIDNet: A Real-time Semantic Segmentation Network Inspired by PID》
针对双分支模型在语义分割任务上直接融合高分辨率的细节信息与低频的上下文信息过程中细节特征会被上下文信息掩盖的问题,提出了一种新的网络架构PIDNet,该模型受启发于PID控制器并包含:空间细节分支、上下文分支与边界注意力分支。通过使用边界注意力来引导空间细节与上下文信息融合。实验结果表明该模型的精度超过了具有相似推理速度的所有模型,在Cityscapes和CamVid数据集上取得了最佳的推理速度和精确度的平衡。将PID控制器与CNN相结合,提出一个三分支的网络结构。原创 2023-04-30 22:38:31 · 1129 阅读 · 0 评论 -
论文阅读《Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Est》
受启发于多任务学习模型,本文提出一种联合了视差与不确定性估计的损失函数用于监督立体匹配模型的训练,通过使用KL散度来约束预测的不确定性分布与预测误差分布,从而实现模型性能的提升。此外,文中还提出一种可微的 soft-histogramming 来拟合分布。实验结果表明,该方法可以使得模型在视差与不确定性预测的性能得到较大提升。提出一种新的不确定性估计模块来从视差子网络生成的中间多分辨率视差图中提取信息。提出一种可微的软直方图技术,用于近似视差误差和不确定性的分布。基于KL散度损失监督模型训练。原创 2023-04-19 16:51:51 · 395 阅读 · 0 评论 -
论文阅读《GlueStick: Robust Image Matching by Sticking Points and Lines Together》
针对视角变化时在闭塞、无纹理、重复纹理区域的线段匹配难的问题,本文提出一种新的匹配范式(GlueStick),该方法基于深度图神经网络将点、线的描述符统一到一个框架中,利用点之间的信息将来自匹配图像之间的线进行粘合,提高了模型的联合匹配效率,表明了在单一框架中使用两种特征的互补性能大幅度提升性能。使用数据驱动的方法代替启发式几何策略进行线匹配,在统一的框架中联合表征点与线。提供了一种新的架构,充分挖掘图像内特征之间的局部关联信息。实验结果表明,所提出的方法比之前最先进的方法有较大提升。原创 2023-04-12 20:14:34 · 1849 阅读 · 1 评论 -
论文阅读《NeRF-Supervised Deep Stereo》
针对深度估计的标签数据难以获取,自监督方法在病态(遮挡、非朗伯面)区域的表现差,跨域泛化能力弱的问题,本文提出了一种新的框架用于在无标签条件下训练双目立体深度估计模型,该方法通过NeRF来对单目拍摄的图像序列进行有监督训练得到目标场景的神经辐射场,使用体渲染得到的立体三元组来补偿遮挡区域的信息,并将深度图作为代理标签(proxy label)对双目深度估计模型进行训练。原创 2023-04-11 11:14:26 · 1282 阅读 · 2 评论 -
论文阅读《Iterative Geometry Encoding Volume for Stereo Matching》
该文章针对立体匹配中缺乏非局部几何知识,难以处理病态区域中的局部歧义性的问题,提出用于立体匹配。该模型构建了一个来学习几何信息与上下文信息,并通过迭代优化的策略来更新视差图。原创 2023-04-05 12:08:14 · 757 阅读 · 0 评论 -
论文阅读《Parallax Attention for Unsupervised Stereo Correspondence Learning》
不同数据集的视图之间的基线、焦距与分辨率不同,基于Cost Volume固定预设视差范围的立体匹配方法无法很好处理大视差预测问题。为此,作者提出一个基于视差注意力机制的立体匹配方法来捕捉大视差范围的匹配点的信息,通过将极线约束与注意力机制结合,计算沿着极线方向的特征相似度来获取匹配点之间的匹配关系。原创 2023-03-21 12:34:39 · 413 阅读 · 1 评论 -
论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》
此文提出了一个基于transformer的匹配方法名为STereo TRansformer (STTR),该方法使用位置信息与注意力机制来提高模型表现。放宽了视差范围限制明确了遮挡区域并进行了置信度估计保证了匹配的唯一性基于transformer架构,使用可以选择的自注意力与交叉注意力机制和最优传输理论来进行特征匹配提出一个相对位置编码来增强匹配特征的表达性使用注意力机制来处理匹配过程中的易混淆特征提出一种内存节省的STTR模型,使得模型能在现有的硬件上训练与推理。原创 2023-02-27 11:44:32 · 300 阅读 · 1 评论 -
论文阅读《Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo Matching Networks》
基于CNN的立体匹配网络存在以下的不足:1) 卷积特征(CF)只学到了外观信息。2)由于卷积操作带有滤波作用,目前基于卷积的视差细化模块往往会产生过于平滑的结果。在这篇工作中,作者提出了两个模块来解决这些问题,首先,为深度立体匹配模型引入了一个成对的特征,名为LSP(Local Similarity Patern),通过探索邻域之间的信息来得到一个更具有判别性的匹配特征。其次,作者设计了一个视差增强策略,并将其应用于代价分布与视差图上。原创 2022-10-16 13:21:29 · 832 阅读 · 1 评论 -
论文阅读《SimpleRecon: 3D Reconstruction Without 3D Convolutions》
传统的室内三维场景重建方法分为两个阶段:单图像深度估计、深度融合与表面重建。现有的基于学习的重建方法依赖于3D卷积,使得模型的计算复杂度较高。为此,本文提出一种多视图深度估计模型,主要包含两个部分:(1) 精心设计的2D CNN模块,该模块充分利用了图像先验以及平面扫描特征量和几何损失。(2)使用多层感知器(MLP)将关键帧和几何元数据集成到代价体中。原创 2022-10-15 10:57:21 · 1556 阅读 · 1 评论 -
论文阅读《Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency Perspective》
虽然目前立体匹配网络能取得不错的效果,但在跨域预测时的效果并不佳。在跨域预测过程中,保持匹配像素之间的特征一致性是提高立体匹配网络泛化能力的关键因素。为此,本文提出了像素级的对比学习,使用立体对比特征损失(The stereo contrastive feature loss)约束匹配像素对学习到的特征之间的一致性。原创 2022-10-03 11:02:09 · 617 阅读 · 3 评论 -
论文阅读《LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching》
论文地址:https://arxiv.org/pdf/2010.13501.pdf源码地址:https://github.com/XuelianCheng/LEAStereo概述 神经网络结构搜索(NAS)方法已经在多个邻域得到了应用,其基础思想为让模型在搜索空间中(如不同卷积核大小)根据设定的搜索策略来得到最适合该任务的架构。目前立体匹配任务是基于人工设计的复杂模型结构来实现的,NAS方法还没应用到该邻域中。本文提出一种端到端训练的分层NAS框架,通过将特定任务的人类知识融入神经结构搜索框架中来原创 2022-05-23 20:46:02 · 689 阅读 · 0 评论 -
论文阅读《Multi-View Depth Estimation by Fusing Single-View Depth Probability with Multi-View Geometry》
论文地址:https://arxiv.org/abs/2112.08177源码地址:https://github.com/baegwangbin/MaGNet概述出发点:MVS构建多视角匹配代价体带来巨大的显存消耗单目深度估计在无(弱)纹理区域、反射表面、运动的物体的情况下的的估计效果比好 为此,本文提出一种融合了单视图深度概率与多视图几何的新框架(Monocular and Geometric Network : MaGNet),对于每一帧图像,MaGNet预测单视图的深度概率分布,并将原创 2022-04-22 21:39:34 · 1163 阅读 · 0 评论 -
论文阅读《ACVNet: Attention Concatenation Volume for Accurate and Efficient Stereo Matching》
论文地址:https://arxiv.org/pdf/2203.02146.pdf源码地址:https://github.com/gangweiX/ACVNet概述出发点:GwcNet直接拼接不同代价体的方式带来冗余特征匹配代价体可以隐式地反映一幅图像中相邻像素之间的关系,即相邻属于同一类的像素往往具有相近的相似性。 Cost Volume在立体匹配中至关重要,本文提出一种基于注意力权重的代价体构建方法,此方法可以去除冗余信息,保留与匹配相关的信息;此外,提出一种多层级自适应的块匹配策略原创 2022-04-21 19:48:32 · 4024 阅读 · 1 评论 -
论文阅读《RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching》
论文地址:https://arxiv.org/abs/2109.07547源码地址:https://github.com/princeton-vl/RAFT-Stereo概述 本文提出了一种适用于双目立体匹配的模型架构,基于光流估计网络RAFT,通过使用多级卷积GRU模块来在图像传播全局信息,并取得了不错的实验结果;模型架构 对于给定的输入图像对 IL、IRI_L、I_RIL、IR,模型主要包含以下三个步骤: 使用权值共享的CNN提取特征、构建相关性匹配代价体金字塔、使用GRU模型来原创 2022-04-19 21:09:31 · 1136 阅读 · 0 评论 -
论文阅读《UCS-Net: Deep Stereo using Adaptive Thin Volume Representation with Uncertainty Awareness》
论文地址:https://arxiv.org/abs/1911.12012v1源码地址:https://github.com/touristCheng/UCSNet背景 现有的模型都是基于固定大小的深度假设空间进行深度值搜索,这种方法很难得到高分辨率的深度图,本文提出一种基于自适应分辨率代价体的深度预测方法,每层的深度假设空间是由上一层的像素预测的不确定性来得到;该模型主要分为三个部分:基于平行窗口的代价体用于预测低分辨率的初始深度图;使用两层ATV(adaptive thin volume原创 2022-04-06 21:42:55 · 843 阅读 · 1 评论 -
论文阅读《HITNet: Hierarchical Iterative Tile Refinement Network for Real-time Stereo Matching》
论文地址:https://arxiv.org/abs/2007.12140v2背景 本文不是基于构建代价体来进行立体匹配,而是通过多分辨率初始化、可微的传播过程与warp机制来实现视差预测。本文基于倾斜窗口的假设,从而提升几何warp与上采样操作的精度;创新点如下:提出一种高效的多分辨率初始化步骤,能够使用学习到的特征计算高分辨率匹配;基于倾斜窗口假设与学习到的特征进行视差传播;模型架构 模型大致内容如下:先使用一个紧凑的U-Net结构提取左右视图的多尺度特征,在多尺度上构建基于平原创 2022-04-04 21:37:27 · 3529 阅读 · 0 评论 -
论文阅读《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》
论文地址:https://arxiv.org/abs/1803.05196背景与意义 现有的模型即使模型复杂度很高,也无法很好地处理无纹理、边界与微小区域;本文提出一个多任务学习的EdgeStereo模型,对一对输入图像同时预测视差图与边缘信息(图像分割);在视差预测分支,使用一个带有残差边的金字塔结构来学习多尺度的纹理信息;通过特征嵌入和边缘感知平滑损失正则化对模型边缘信息进行学习,从而提高模型在细节处的预测效果;模型架构Basic Architecture 首先使用权值共享的CNN提原创 2022-04-03 19:14:13 · 2326 阅读 · 0 评论 -
论文阅读《HSM-Net: Hierarchical Deep Stereo Matching on High-Resolution Images》
论文地址:https://arxiv.org/abs/1912.06704源码地址:https://github.com/gengshan-y/high-res-stereo原创 2022-04-02 19:30:37 · 776 阅读 · 0 评论 -
论文阅读《GA-Net: Guided Aggregation Net for End-to-end Stereo Matching》
论文地址:https://arxiv.org/abs/1904.06587代码地址:https://github.com/feihuzhang/GANet背景 在立体匹配任务重中代价聚合是至关重要的步骤;本文提出两种新的神经网络层用于同时捕获局部与全局的代价依赖关系;第一种是半全局聚合层,它是 SGM 的可微近似;第二种是局部引导聚合层,它遵循传统的滤波策略来精细化最后的输出。这两个结构可以替代3D卷积从而达到降低计算量的目的;传统SGM传统SGM算法具体内容请移步博主的另外一篇博客:论文阅读原创 2022-04-01 15:45:37 · 3036 阅读 · 0 评论 -
论文阅读《PSM-Net: Pyramid Stereo Matching Network》
论文地址:https://arxiv.org/abs/1803.08669代码地址:https://github.com/JiaRenChang/PSMNet背景 为了提高模型在不确定区域(遮挡与弱纹理)的效果,本文提出了一个PSM-Net,该网络包含金字塔池化与3D正则化层;其中金字塔池化模块有利于模型提取更丰富的上下文信息,而U-Net结构的3D正则化层有效减小了模型的计算量;模型结构 左右图像同时送进权重共享的特征提取CNN中得到特征图;通过拼接左右特征图来构建代价体;然后通过3原创 2022-03-31 22:19:22 · 1400 阅读 · 2 评论 -
论文阅读《SGM-Net: Semi-global matching with neural networks》
论文地址:http://openaccess.thecvf.com/content_cvpr_2017/papers/Seki_SGM-Nets_Semi-Global_Matching_CVPR_2017_paper.pdf背景 传统SGM算法效果虽好,但严重依赖于使用者的调参经验,算法中的惩罚因子对算法的性能有极大的影响,为此提出使用CNN学习的方式来进行参数估计;SGM-Net的输入为小图像patch以及位置,输出为3D物体结构的惩罚参数;为了训练网络,提出了一种使用稀疏标注视差的损失函数;此外原创 2022-03-31 17:52:05 · 1823 阅读 · 0 评论 -
论文阅读《GC-Net: End-to-End Learning of Geometry and Context for Deep Stereo Regression》
论文地址:https://arxiv.org/abs/1703.04309背景本文提出一种端对端训练的视差估计模型,模型的输入为极线校正后的图像对,输出为视差图;本文的创新点如下:使用3D卷积来进行代价聚合(代价体正则化);使用可微的argmin由代价体回归得到视差图,使得整个可以通过端对端的训练;网络结构 本文提出一个端对端训练的视差估计模型,首先通过权值共享的CNN模块提取左右图像对的深度视觉特征,然后通过左右视图的特征构建匹配代价体,接着基于3DCNN进行代价体正则化(代价聚合原创 2022-03-29 21:50:21 · 794 阅读 · 1 评论 -
论文阅读《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Es》
论文地址:https://arxiv.org/abs/1512.02134v1背景 光流估计(optial flow estimation)可以在一个大型合成数据集上训练,受此启发,本文将光流估计模型扩展到视差估计(disparity estimation)和场景流估计(Scene Flow estimation),在大型合成数据集上使用CNN来解决视差估计与场景流估计问题;网络结构DispNet是基于FlowNet的结构进行小改而来,网路的整体与FlowNet的结构是一致的;FlowNet原创 2022-03-28 15:40:48 · 2491 阅读 · 0 评论