基于深度学习的立体匹配
文章平均质量分 93
乘着深度学习及其配套硬件的趋势,基于深度学习的立体匹配方法几乎全方面的碾压了传统方法,日渐有完全替代之势,故该专栏紧跟前沿技术,详细介绍了基于深度学习的立体匹配方法。
FLOWVERSE
科技、哲学、与心理
展开
-
双目网络中的预训练技巧与数据增强
文章目录理论说明预训练数据增强实验结果预训练小数据集上的Finetune数据增强理论说明预训练参考文章: Rethinking Training Strategy in Stereo Matching我们知道在基于深度学习的双目深度估计中,为了获得一个有着良好表现的模型,研究人员往往会采用两阶段的训练技巧:即预训练和微调。往往预训练模型会先训练足够的轮次。 Sceneflow数据集是一个相对来说比较庞大的数据集,其中有着35,454张影像。通常看来,模型在大的数据集上面训练后,会有着相对于其原创 2022-03-29 23:40:00 · 1200 阅读 · 1 评论 -
双目网络公开数据集的特性
概述参考文章:Rethinking Training Strategy in Stereo Matching主流双目公开数据集有:SceneFlow、KITTI、ETH3D、MB。各个双目网络主流训练数据视差分布的直方图:SceneFlow合成数据。有35454张训练数据,4370张测试数据。影像大小为:540(H)*960(W)。可以用于做消融实验,同时不用担心会过拟合。预训练模型可以更好的泛化。视差在0到256之间,99.9%在200以内。KITTI 2012 & 2原创 2022-03-29 21:24:27 · 2031 阅读 · 0 评论 -
CVPR 2021: 英伟达开源局部隐式图像函数 Learning Continuous Image Representation with Local Implicit Image Function
文章目录概述局部隐式图像函数(Local Implicit Image Function, 简称LIIF)Feature unfolding局部ensembleCell decoding学习连续的图像表达实验学习连续影像表达设定实现细节定量结果定性结果消融实验学习不同尺寸的GT: image-to-image设定方法及结果结论参考文献概述论文名称: Learning Continuous Image Representation with Local Implicit Image Function论原创 2022-02-28 09:51:20 · 3649 阅读 · 0 评论 -
StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction(ECCV 2018)
文章目录概述网络结构特征提取网络代价空间可微分的argmin分层的Refinement损失函数实现细节实验数据和实验设置亚像素精度讨论概述论文链接: https://arxiv.org/pdf/1807.08865.pdf作者单位: Google Inc.被引: 161tag: ECCV 2018StereoNet是端到端的立体匹配网络中比较经典的方法,源于谷歌实验室,是2018年的ECCV。StereoNet在Nividia Titan X上可以跑到60帧,可以归类于基于2D卷积的端到端原创 2022-02-18 14:40:03 · 1855 阅读 · 0 评论 -
stereo focal loss:当Focal loss遇到立体匹配任务
文章目录概述代码简单实现延伸:stereo focal loss概述focal-loss是在交叉熵损失的基础上改进而来的损失,主要作用在于不忽略所有样本,同时能够让模型的训练更加专注于难训练的样本上。focal loss试图解决的问题是,梯度在训练过程中被大量easy example主导的问题。focal loss的出发点在于,想要处理类别不均衡的问题,是不是对不同类别所产生的loss的权重进行控制就可以了?也就是说,加一个控制权重αt\alpha_{t}αt,注意,这里的控制权重并不是一个值,而是原创 2022-02-16 14:15:48 · 1163 阅读 · 0 评论 -
Connecting the Dots: 应用于主动单目深度估计的深度学习模型(CVPR2019)
作者‖ flow编辑‖ 3D视觉开发者社区3D 视觉开发者社区原链接‖ https://mp.weixin.qq.com/s/eVLVtlJ3KEepyffJoz-eYQ目标读者: 对单目结构光深度估计感兴趣的相关研究人员。论文及补充材料链接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Riegler_Connecting_the_Dots_Learning_Representations_for_Active_Monocular_原创 2021-12-27 09:50:25 · 2053 阅读 · 0 评论 -
DepthInSpace:多帧影像信息在单目结构光深度估计中的应用(ICCV2021)
作者‖ flow编辑‖ 3D视觉开发者社区3D 开发者社区该文链接‖ https://mp.weixin.qq.com/s/EYxbJmj3cxwOahwouwLxUg目标读者: 对基于深度学习的单目结构光深度估计感兴趣的相关研究人员。论文及附件链接:https://paperswithcode.com/paper/depthinspace-exploitation-and-fusion-ofhttps://openaccess.thecvf.com/content/ICCV2021/su...原创 2021-12-23 23:00:51 · 1834 阅读 · 0 评论 -
ECCV 2020 best paper: RAFT算法解析
ECCV 2020 best paper: RAFT作者‖ flow编辑‖ 3D视觉开发者社区3D开发者社区该文链接‖ https://mp.weixin.qq.com/s/IknaCBVllJZI0pGZA6iANw导语: RAFT这篇文章荣获了ECCV 2020的best paper,可以说实至名归,也将在光流领域的研究历史中留下浓重彩墨的一笔,本文将从RAFT算法的实现、迭代更新及实验结果对该篇文章进行解析,旨在为光流估计以及立体匹配相关研究人员提供学习参考。目标读者: 光流估计以.原创 2021-12-23 22:38:48 · 2810 阅读 · 0 评论 -
DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络
DSM: Domain-invariant Stereo Matching Networks 域不变的立体匹配网络作者‖ flow编辑‖ 3D视觉开发者社区3D开发者社区链接:https://mp.weixin.qq.com/s/qNmnGVSAuQU7KusI630-og导语: 本文是由来自牛津大学、百度研究院以及香港中文大学团队发表的论文,该团队提出了域不变的立体匹配网络方法,用于解决立体匹配网络中直接跨域泛化的问题。适合对立体匹配领域感兴趣,并对该领域术语与概念有一定了解的读者学习。论文链原创 2021-12-22 23:23:13 · 1433 阅读 · 0 评论 -
CVPR 2020:AAnet理论及实践学习笔记(以及RTX 3090环境配置)
引言最近实验室购置了几块显卡,我电脑上也故此沾光配置了两块3090。科研目的是为了学习基于深度学习的三维重建方法,尤其是立体匹配,深度估计等方面。为了配合深度学习的环境,将台式机装了ubuntu18.04的系统。以下将首先介绍配置深度学习环境,其次是经典以及前沿的方法实验,最后是自己的一些总结。内容或有些繁杂,暂时是持续更新中。深度学习环境配置驱动安装首先是下载驱动,可以去nvidia的官网下载对应显卡的驱动程序,我这里下载了一份适用于ubuntu18.04,3090的驱动,放在了网盘里,链接原创 2021-03-09 10:29:23 · 2505 阅读 · 11 评论 -
GC-Net 笔记及探讨 --- unary特征以及级联的cost volume (更新中)
前言之前读AANet,读patchmatch-net,读pam-net,读各种fancy的net的时候,总是会不停的往前追溯,总会追溯到GC-net,借鉴到GC-net的思想。因此,决定精读GC-Net,并做以下笔记。论文结构近几年总说的cost volume,其实就来源于这篇GC-Net。在看网络结构之前,先看看看论文结构吧。IntroductionRelated WorkLearning End-to-end Disparity Regression3.1 Unary Features原创 2021-03-23 10:25:18 · 2226 阅读 · 8 评论 -
立体匹配网络中的domain adaptation问题:AdaStereo
文章目录概述损失函数概述希望讨论的问题是什么?以PSMNet为例,其在Middlebury数据集上进行预训练得到的模型,在KITTI上的推理效果或许就不好。这篇文章就想聊聊怎么去处理不同场景下的模型的适应问题。又或者说,模型的泛化问题。参考论文及相关信息为:是商汤2020年的工作。论文的效果怎么样?能否简要概述是怎么解决的问题?假定现在有两个数据集,一个是合成数据集,数据量非常大,另一个是真实场景数据集,数据量相对小很多,文章认为这两个数据集之间的gap主要在于以下几个层原创 2021-05-08 11:35:04 · 562 阅读 · 0 评论 -
STTR: Revisiting Stereo Depth Estimation From a Sequence-to-Sequence...(ICCV 2021)
2020年,Google在提出了一个将transformer应用在图像分类的模型ViT(vision transformer),具体思路为:将图像分为固定大小的patch,通过线性变化将其变为向量,并将这个向量们embeeding进transformer,之后便对其进行分类。transformer的结构通常来说是encoder+decoder,实质上,ViT仅仅使用了transformer的encoder部分,目的是提取特征。将2D的参考链接https://mp.weixin.qq.com/s/zB原创 2021-04-29 15:30:46 · 1695 阅读 · 0 评论 -
PatchMatchNet实践(环境配置、相关软件安装)及理论学习笔记(更新中)
0 概述论文代码作者已经开源,地址为:https://github.com/FangjinhuaWang/PatchmatchNet。Patchmatch-Net的网络结构为:整体包括了几个大步骤,比如多尺度的特征提取,基于学习的patchmatch还有精化层。离不开的基础策略是从粗到精。1 实践基于github主页上的readme信息,整理出了以下复现步骤,如导图中所示。1.1 conda中新建环境首先在anaconda中新建一个用于patchmatch测试学习的环境,我这里命名为pa原创 2021-03-16 16:56:07 · 6618 阅读 · 28 评论 -
GwcNet:逐组相关的立体匹配网络(CVPR 2019)
概述网络架构3.2. Group-wise correlation volume原创 2021-03-25 22:16:08 · 4983 阅读 · 0 评论