三维视觉
文章平均质量分 71
yanqs_whu
武汉电力职业技术学院
展开
-
GTAV:原始影像和深度图获取
背景GTAV是一个非常好的游戏,目前也已经被广泛应用到深度学习之中了。本篇博客简单介绍一下如何采集数据。1.数据采集1. 代码修改本篇博客的代码来源于GTAVisionExport。但是上述代码中,存在些许问题,经过调整后的代码如下:https://github.com/Yannnnnnnnnnnn/GTAVisionExport。主要修改的模块是:使用二进制保存数据调整深度渲染器分辨率,保持与游戏界面大小一致此处,简单提一下GTAVisionExport的使用规则:需要拷贝Sc原创 2021-01-20 17:36:18 · 2207 阅读 · 9 评论 -
三维视觉论文实战:DenseDepth2019--网络结构及demo
目的本篇博客的主要目的是记录测试DenseDepth的demo的过程,包括“pytorch模型构建”和“keras模型参数转pytorch”两大部分,当然最后还有一个实验模块。注明以下,本篇博客为啥要构建pytorch模型。原因很简单:一、我不会keras;二、希望通过构建新的模型来加深本人对DenseDepth的理解。代码本篇博客在撰写时,主要使用了两个代码,分别是原始代码,以及最终修改好的结果。https://github.com/ialhashim/DenseDepth(keras模型)原创 2021-01-19 17:27:10 · 1128 阅读 · 0 评论 -
三维视觉论文阅读:RMVSNet2019多视立体匹配
论文Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference摘要MVSNet最大的问题是3D UNet,太耗费内存了。RMVSNet另辟蹊径,使用了GRU来进行代价聚合,取得了不错的效果。方法RMVSNet的网络结构如下图所示,其与MVSNet的结果主要不同的地方在于cost volumn的代价聚合部分。1. 代价聚合代价聚合一直是双目立体匹配和多视立体匹配中的老大难,并不是效果不好,而是太耗费内存。在本篇文原创 2021-01-16 14:39:36 · 905 阅读 · 0 评论 -
三维视觉论文阅读:MVSNet2018多视立体匹配
论文MVSNet: Depth Inference for Unstructured Multi-view Stereo摘要MVSNet是深度学习多视立体匹配的开山之作(我个人认为),虽然其在网络结构上与双目立体匹配并没有太大的改进,但是其解决了如何进行多视下怎么可微的进行cost volumn构建。方法下图展示了MVSNet的主要结构,如果排除掉cost volumn的构建方法,可以说其与GCNet/PSMNet可以说没啥太大的区别;总体来说,MVSNet也可以分为四个部分,哈斯特征提取、cos原创 2021-01-16 14:10:49 · 921 阅读 · 0 评论 -
三维视觉论文阅读:high-res-stereo2019双目立体视觉
论文Hierarchical Deep Stereo Matching on High-resolution Images摘要本篇文章本人在看的时候,感觉特别像StereoNet和StereoDRNet。high-res-stereo强调了其在处理高分辨率影像的能力,并且也得到了非常漂亮的效果;另外,就是这篇文章也公开了代码,目前从issue的情况来看,论文的结果是可复现的!方法以下展示了high-res-stereo的网络结构,其实还是特征提取和代价回归两部分。1. 特征提取high-re原创 2021-01-16 12:50:02 · 961 阅读 · 1 评论 -
三维视觉论文阅读:RAFT2020双目光流
论文RAFT: Recurrent All-Pairs Field Transforms for Optical Flow摘要2020年下半年以来,深度学习都逐渐走向了迭代优化(例如NeRf),还都取得了不错的效果。在RAFT中,作者将迭代优化应用到了光流之中,取得了非常不错的效果,截至到目前RAFT仍旧是多个benchmark的第一名。所以,本篇文章还是非常有必要读一读的。方法虽然RAFT的网络结构与大部分光流的结构在总体上仍旧是相似的,即有特征提取模块,然后有cost volumn构建,最后再原创 2021-01-15 16:52:58 · 1618 阅读 · 0 评论 -
三维视觉论文阅读:DeepPruner2019双目立体匹配
论文DeepPruner: Learning Efficient Stereo Matching via Differentiable PatchMatch摘要DeepPruner这篇文章,本人在2019年上半旬就大致读过一次,但是那时候原创 2021-01-14 15:56:04 · 1002 阅读 · 2 评论 -
三维视觉论文阅读:AcfNet2019双目立体匹配
论文Adaptive Unimodal Cost Volume Filtering for Deep Stereo Matching摘要PSMNet对后续立体匹配的研究影响非常大,但是大部分人都把重心放在了网络设计上了;而本篇文章则把研究重点放在了loss的设计上,并且最终结果还不错,本人还是挺感兴趣的。方法在网络结构上,AcfNet与PSMNet区别并不是特别大,大致结构如下图所示,利用左右目影像构建cost volumn;不同之处在与,如何处理cost volumn。1. soft arg原创 2021-01-11 23:40:12 · 517 阅读 · 0 评论 -
三维视觉论文阅读:StereoDRNet2019双目立体匹配
论文StereoDRNet: Dilated Residual Stereo Net摘要个人感觉StereoDRNet是StereoNet的后续,做了很多的改进,实验效果也非常好。网络模型StereoDRNet的输入是左右视图,输出是左图视差、右图视差和遮挡区域三部分类容。StereoDRNet也包含特征提取、代价聚合和视差优化三个模块,后续将逐步展开介绍。1. 特征提取PSMNet中的SPP模块给大家带来了非常大的影响,所以在本篇文章中作者更加激进了。。。StereoDRNet的特征提取原创 2021-01-08 00:22:56 · 1053 阅读 · 2 评论 -
三维视觉论文阅读:StereoNet2018双目立体匹配
论文StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction摘要双目立体匹配的计算效率一直是一个老大难,StereoNet在2018年提出了一个新的思路,即只用低分辨率预测视差图,然后不断用图片做导向滤波得到最终的高质量结果。除此之外,本篇文章还分享了一些炼丹心得,也很有意思。网络StereoNet的网络结构还是非常简单的,大致上分成三部分,第一部分提取特征,第二部分视差计算,第三部分优原创 2021-01-04 00:45:19 · 2064 阅读 · 0 评论 -
三维视觉论文阅读:PWCNet2018双目光流
论文PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost VolumeModels Matter, So Does Training: An Empirical Study of CNNs for Optical Flow Estimation摘要PWCNet是Nvidia提出的光流估计方法,在网络模型和训练方法上都进行比较深入的讨论。这个组还复现了FlowNet2,比原作者的FlowNet2影响还大,可见这篇论文的作者对光流原创 2021-01-02 23:50:28 · 5581 阅读 · 2 评论 -
三维视觉论文阅读:AANet2020双目立体匹配
论文AANet: Adaptive Aggregation Network for Efficient Stereo Matching摘要在双目立体匹配中,最麻烦的问题在于如何进行“代价聚合”。三维卷积肯定是不行的,计算量太大;GANet那一套也不太行,计算起来效率太低。本篇文章则通过对多尺度代价进行融合,发现不仅能提高速度(PSMNet、GANet),还有更加不错的效果。说到这里,我又不得不感叹一下GANet,论文作者的想法是好的,希望通过传统SGM的多路径聚合替代深度学习的三维卷积;但是他却忽视原创 2020-12-30 21:42:18 · 1761 阅读 · 6 评论 -
三维视觉论文阅读:GANet2019双目立体匹配
论文GA-Net: Guided Aggregation Net for End-to-end Stereo Matching摘要自从大家开始将SGM的思想引入双目立体匹配网络后,越多越多的学者开始开脑洞。在GANet这篇论文中,作者的主要的贡献就是将SGM的“代价聚合”模块引入到端到端网络之中。模型在文章中,作者给出了一个网络结构的示意图。然而由于作者并没有添加任何图例,本人完全看不懂这个图中的具体细节。为了大致搞清楚本文的网络结构,本文阅读代码,大致画了以下两个图(其中绿色模块是各种卷积,黑原创 2020-12-25 16:56:01 · 1399 阅读 · 0 评论 -
三维视觉论文阅读:PSMNet2018双目立体匹配
论文Pyramid Stereo Matching Network摘要学习双目立体匹配,传统方法里不能不知道SGM,深度学习方法里则不能不知道PSMNet。这篇文章在GCNet的基础上,对网络进行了全面的改进,使得双目立体匹配迈上了一个新的台阶。网络模型熟悉GCNet后去理解PSMNet的网络模型,还是比较容易的。PSMNet整体还是可以分成4个模块,作者对其中的“特征提取”和“代价聚合”两个模块进行大幅度的改进。“代价计算”和“可微视差生成”则保持原样。另外,文章中给出了详细的网络参数,如下原创 2020-12-17 14:51:30 · 1312 阅读 · 0 评论 -
三维视觉论文阅读:GC-Net2017双目立体匹配
论文End-to-End Learning of Geometry and Context for Deep Stereo Regression摘要传统问题转化成”end2end"的“可微问题”是很多三维视觉论文讨论的核心,在这篇文章中就展示了如何将SGM可微化。另外,这篇文章的作者估计也很讨厌黑盒子式的端到端,所以整篇文章都在强调网络结构设计的合理性与原理。网络结构上图展示了GC-Net的整个网络结构,不难发现,其虽然是一个端到端的网络;但是仍旧被显著的分成了四个模块,分别是“特征提取”、“原创 2020-12-17 11:48:51 · 2057 阅读 · 3 评论 -
三维视觉论文阅读:mc-cnn2016双目立体匹配
论文Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches摘要本篇文章只关注“像素块相似度”这一块,仅仅是双目立体匹配中的一个小模块;导致文中还有大量传统方法的内容,不过这些东西不是现在应该讨论的重点,所以直接跳过了。方法早期的深度学习方法都还不是end2end,所以行文有点啰嗦。本篇文章大致分为数据集以及两个对应的网络。1 数据集考虑到本文只关心像素块的相似度,因此作者用了一个很简原创 2020-12-15 20:10:55 · 1648 阅读 · 2 评论 -
三维视觉论文阅读:FlowNet3.0(boundary+occlusions)2018双目光流
论文Occlusions, Motion and Depth Boundaries with a Generic Network for Disparity, Optical Flow or Scene Flow Estimation摘要在光流中,遮挡是一个非常普遍的现象,运动物体或者自我遮挡都会导致前后光流不一致。在本篇论文中,作者秉承着炼丹学的精神,深入且全面的讨论了炼丹的一些细节。由于Scene Flow不是博主的研究方向,不做讨论。方法1 模型假设秉持FlowNet系列以来的一贯风格,原创 2020-12-14 15:42:25 · 885 阅读 · 1 评论 -
三维视觉论文阅读:FlowNet2.0 2017双目光流
论文FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks摘要FlowNet1.0取得了不错的效果,但是在实际应用时效果还并不是特别好。针对这些问题,FlowNet2.0做了一些改进,显著的提升了光流质量。方法整体而言,FlowNet2.0这篇论文更像是一篇炼丹学,非常详细的介绍了在做光流匹配的时候需要注意的一些问题,以及作者经过大量实验总结出来的一些技巧。因此,也就不存在所谓的网络模型这些概念。1. 训练技巧–l原创 2020-12-13 13:56:08 · 544 阅读 · 0 评论 -
三维视觉论文阅读:FlowNet2015双目光流
论文FlowNet: Learning Optical Flow with Convolutional Networks摘要CNN网络是个神奇的东西,这篇文章就直接用这玩意用于做光流匹配,法向效果还不错的。但是看到这里,不仅开始感叹做单目深度估计的人都在干嘛,Dosovitskiy这帮人2015年都在玩encoder-decoder和skip-connection,但是单目深度这边一直到了2017年左右才勉强正常。不知道这中间到底还有什么故事。除此之外,这篇文章还有一些数据集网络由于是第一个将原创 2020-12-12 12:32:44 · 345 阅读 · 1 评论 -
三维视觉论文阅读:DenseDepth2019单目深度估计
论文High Quality Monocular Depth Estimation via Transfer Learning摘要本篇文章是一篇比较经典用Encoder-Decoder结构的网络,取得的效果也时很不错的。网络结构DenseDepth的encoder是DenseNet-169,decoder的上采用也没有用什么花里胡哨的方法,直接双线性插值。损失函数个人认为,本篇文章的损失函数是非常不错的。除常用的外,还添加了SSIM,直接让GT深度图和预测深度图相同(个人感觉这个受到了SfM原创 2020-12-10 16:01:05 · 1328 阅读 · 0 评论 -
三维视觉论文阅读:MegaDepth2018单目深度估计
论文MegaDepth: Learning Single-View Depth Prediction from Internet Photos摘要单目深度估计的难题就是数据集,本篇文章设计了一套基于互联网影像生成训练数据集(ColMap)的方法,可以满足各种需求。数据生成MegeDepth充分利用了传统方法的成果,首先利用Colmap计算影像的位姿,然后利用MVS方法获取深度图,大概可以获取以下的结果。但是显然上述生成的深度图还是有诸多问题,例如照片中的前景深度残缺(通常是人或者一些移动物体)原创 2020-12-10 15:49:15 · 1399 阅读 · 0 评论 -
三维视觉论文阅读:DORN2018单目深度估计
论文Deep Ordinal Regression Network for Monocular Depth Estimation摘要本篇论文认为之前基于encoder-decoer思路的方法虽然好看,但是不中用,不仅训练麻烦,深度图精度也就那样。本篇论文的方法独树一帜,即便是2020年来看,也是非常厉害。但是就看文章的体验来说,真的把人看傻了。本人在理解思路时,完整看了代码进行辅助,链接如下:https://github.com/dontLoveBugs/DORN_pytorch网络模型以原创 2020-12-05 21:56:13 · 2691 阅读 · 6 评论 -
三维视觉论文阅读:Laina2016单目深度估计
论文Deeper Depth Prediction with Fully Convolutional Residual Networks摘要单目深度估计发展到2016年,大家终于开始摆脱恐怖全连接层。本篇论文就展示了一个近似encoder-decoder的深度估计架构,直接端到端进行训练即可,不需要额外乱七八糟的技巧。模型下图展示了一个完整的网络结构图。由于Eigen2015已经试过了AlexNet和VGG16,作者只好用ResNet50作为特征提取器。相对而言,本篇文章被津津乐道的主要地方在原创 2020-12-04 21:16:34 · 340 阅读 · 1 评论 -
三维视觉论文阅读:Weifeng2016单目深度估计
论文Single-Image Depth Perception in the Wild摘要单张影像恢复深度需要大量每个像素都具有深度值的数据集,这极大提高了数据集的制作难度(尤其是在室外环境),限制了单目深度估计的应用范围。这篇论文脑洞突破天际,作者认为像素的深度值准确值意义并不大,反而像素间的相对深度关系更加重要。如下图所示,作者展示了几张图片,每张图片上标注两个点。显然大多数情况下,人脑都能第一时间判断那个点更近,那个点更远,却难以具体量化两个点之间的距离。当然也存在一些情况下,无法分清楚谁更原创 2020-12-01 14:59:21 · 195 阅读 · 0 评论 -
三维视觉论文阅读:Eigen2015单目深度估计
论文Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture摘要相比与Eigen2014,Eigen2015一方面考虑使用网络同时估计深度、法向以及语义信息,另一方面还对网络进行了一定程度的升级,更深更复杂。网络模型下图展示了文章中提出的网络模型,其共可以分为三层。第一层为特征提取层,无论是用AlexNet还是VGGNet,都是先提取特征,得原创 2020-11-29 22:29:38 · 507 阅读 · 0 评论 -
三维视觉论文阅读:Eigen2014单目深度估计
摘要论文《Depth Map Prediction from a Single Image using a Multi-Scale Deep Network》论文其他部分,明日再写,今天先搞定公式。损失函数不得不说论文里的损失函数让人看得乱七八糟的,根本搞不懂。经过我两个夜晚的思考,终于把公式看懂了,真是难得啊,特此记录一下。首先记di=logyi∗−logyid_i=logy_i^*-logy_idi=logyi∗−logyi,d‾=α(y,y∗)=1n∑di\overline{d}=\a原创 2020-11-25 00:12:59 · 810 阅读 · 0 评论