PSMNet:Pyramid Stereo Matching Network学习测试笔记00

最新推荐文章于 2024-08-08 08:13:57 发布

幼儿园传奇大侠

最新推荐文章于 2024-08-08 08:13:57 发布

阅读量4.5k

点赞数 3

分类专栏： PSMNet 深度学习学习笔记文章标签： PSMNet 双目视觉三维重建 PyTorch

本文链接：https://blog.csdn.net/u013000248/article/details/90658628

版权

学习笔记同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

深度学习

13 篇文章 0 订阅

订阅专栏

PSMNet

7 篇文章 1 订阅

订阅专栏

写在前面的话：
2019年09月28日18:02:55补充说明：CSDN博客发布版权更新，如果您看了博客并且用到PSMNet相关东西，请注明引用原作者的文章：

@inproceedings{chang2018pyramid,
title={Pyramid Stereo Matching Network},
author={Chang, Jia-Ren and Chen, Yong-Sheng},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
pages={5410–5418},
year={2018}
}

CVPR2018原文链接
 Github仓库地址
 SceneFlow数据集链接，只需要cleanpass和Disparity

1.简要描述

PSMNet是一个很6皮的三维重建网络，我需要做三维重建，说句实在话，经典结构光法精度高，也已经发展到瓶颈了，多频外插法一枝独秀。深度学习的双目仿生原理，感觉会很有前景和研究价值。所以现在玩一玩总是好的。这里发现一篇很好的文章，毕竟是CVPR级别。说实话，第一次看文章真看不懂，而且深度学习这个东西，网络结构设计出来最后为什么会出来这种效果，其实不太好说清。这种东西，和第一次写HelloWord一样，弄出来有个直观的印象总是好的。

2.硬件推荐

参照文章，土豪哥哥们用的四路泰坦Xp,单卡batchsize是3，一次可以跑12组图，我只有一张1080Ti 11GB显存，老老实实：

# set gpu id used
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

测试一次2组图没问题，占用率忘了，大约7000多MB，除以二乘以3就是batchsize为3的时候的显存需求量，经过计算，一次3组图其实显存够，但是系统的图形界面还会占一点显存那成了压死骆驼的最后一根稻草，所以我选择关闭图形界面，这样显存占用只有10M，舒服了。内存我用32GB，需要很大的缓冲cache，小一点也可以。其他软件环境配置参照Github的README。如果显存只有4GB，那就只能跑batchsize=1
推荐先用给出的pretrain的model先测试一次。挺好玩的。预训练模型在readme里面有链接，是在google drive的，需要梯子，没有梯子的同学到我的分享的资源里有。（不知道怎么改1积分下载。。百度云链接：链接：https://pan.baidu.com/s/1S5bez9EwWg82wXv1ZWSImw 提取码：80ov ，百度云是我的训练结果）

3.训练过程

大佬们的四路泰坦XP需要13小时，1080Ti在性能上相比泰坦Xp差的不是太多，就是显存少1G，所以，我跑一个epoch需要约6小时（其实是5小时44分左右，偷懒算），设定15个Epoch,多试试看看会不会过拟合。经过6*15个小时的艰苦奋斗，终于让我跑完了这个数据集。那么看看那效果：
SceneFlow数据集效果
上面两张是原始图，下面左边是groundtruth，右边是网络结构跑出来的结果，效果还是可以的。（顺便吐槽一下，怎么能用动画模型做数据集呢，这么不靠谱）。