monodepth2复现心得

北科的大成哥

已于 2022-07-11 17:26:51 修改

阅读量6.7k

点赞数 8

分类专栏：机器学习文章标签：深度学习

于 2022-04-11 18:51:24 首次发布

本文链接：https://blog.csdn.net/weixin_42958308/article/details/124103549

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

使用paddlepaddle复现monodepth2心得

前言

从刚开始接触monodepth2现在，已经过去将近两个月，几乎天天都泡在使用paddlepaddle复现monodepth2的工作里，但是由于其中各种各样的bug，直到今天才终于复现出了其中70%的内容，也就是利用立体视觉作为数据集，进行弹幕深度估计。

历程

前前后后共进行6次复现：
第一次：直接将原论文pytorch框架改为paddlepaddle框架
结果：失败
总结：虽然原理看的明白，但是好多paddle自身框架不太懂，论文也阅读的马马虎虎。不过通过这一次转换，加深了对paddle框架的理解，同时对原论文程序顺序有了较深认识。

第二次：先仔细阅读论文，在根据自己的理解实现其中一个个功能模块，最后将功能模块根据原论文的功能实现顺序组合到一起。
结果：失败
总结：尽管loss下降了，但是得到的却不是视差图和深度图，仅仅是和原图相似结构的图片。不过这一次转换加强了代码整体框架编写能力

第三次：对比自己写的功能模块和源代码的功能模块，将源代码部分功能模块替换到自己程序中。
结果：失败
总结：loss一直保持在极低水平，甚至最后下限溢出。😥不过这一次加强了部分功能模块的运行效率，提升了功能模块的编写水平。

第四次：寻找别人复现成功的进行运行，同时精简代码并加上注释。
结果：成功😀
总结：成功运行，恢复了一定信心。同时加上注释后便于后期更改和优化。

第五次：将代码进行进一步简化，并在成功运行的基础上开始将里面的功能模块替换为自己写的。
结果：先失败后成功😀
总结：成功运行，最关键的明确了很多之前代码编写出现的问题。

第六次：自己重新编写框架，但功能模块先用别人的。成功运行后，再将里面的功能模块替换为自己写的。
结果：先失败后成功😀
总结：成功运行，进一步明确了很多不阻碍运行但是阻碍复现效果的细节问题。

问题总结

1.原论文中在计算重构损失时，有这样一段代码：

# add random numbers to break ties
identity_reprojection_loss += paddle.randn(identity_reprojection_loss.shape) * 0.00001

这段代码似乎没有什么，但是如果不加上：

paddle.seed(seed)

就会导致每一次增加的随机矩阵都是不同的，造成loss无法下降，该道理也试用与一开始数据集设置中的随机进行图片强化和水平翻转。

2.源代码数据集中内参矩阵和外姿矩阵与官方kitti给出的不一致：

我一开始发现不光这两样不一样，连图片尺寸也不一样。我本以为线性变换后会一致，但是也不对。最关键的是不用源代码给的内参和外姿矩阵，也会造成loss不下降的现象。我感觉这之中应该有什么关系，但是一至没有找到，登github也登不上，没法向开发者提问，不知道有没有大神可以解答。😀

3.读取数据的方式影响loss收敛的效果：

这一块是一个最大也是最不容易发现的bug，如果不熟悉pillow、opencv以及paddle.to_tensor()、paddle.vision.transforms.to_tensor()区别的人很难发现。我是经过了之前6轮复现，并查找相关资料才明白的。
首先是pillow、opencv区别，这两者的区别不仅仅是一个是RGB，另一个是BGR这么简单，两个本身的数据格式也不同。具体细节参见这篇文章：opencv、matplotlib、Pillow读取图像的对比。

paddle.to_tensor()与paddle.vision.transforms.to_tensor()的区别就更多。百度官方给的深度学习教程上直接使用paddle.to_tensor()将图片变成张量，图片在每个通道上的取值为0~255，但是源代码中使用的是paddle.vision.transforms.to_tensor()，官方api中对它的描述是：
在这里插入图片描述
换句话说，monodepth2训练的图片是归一化后的图片。在这里我做了一个小实验对比了几种输入图片的方式：

读取方式	loss时是否下降收敛
直接用pillow读取，并用transforms.to_tensor()转化	是
直接用opencv读取，并用transforms.to_tensor()转化	否
直接用opencv读取，先转化为pillow格式，再用transforms.to_tensor()转化	是

同时，由于源代码中需要对原图片进行下降采样，在这基础上我也对比了一下：

采样方式	loss下降速度
cv2.resize	慢
paddle.nn.functional.interpolate	适中
transforms.resize	慢
resize (pillow，参数选Image.ANTIALIAS)	快

最后关于pillow和opencv，在源代码上有这样一行注释：

from PIL import Image  # using pillow-simd for increased speed

或许作者早已经知道了。最后我利用笔记本电脑，训练105组图片20轮，batch_size为2的情况下的图片结果为：
在这里插入图片描述

虽然不及源代码几十个G的大数据，但是这样的小批量数据在训练半小时后就能达到这样一个结果，节省了大量时间和物力，提高了验证效率。
附录1：
之前一直以为 resize (pillow，参数选Image.ANTIALIAS)和opencv的resize在图片放大上的区别仅仅是影响了下降速度，知道后期看了别人的博才发现原来resize (pillow，参数选Image.ANTIALIAS)在放大的同时进行了抗锯齿操作。图像处理之高质量缩放（抗锯齿）
附录2：
有人问过其他尺寸的图片可不可以用，我感觉，用是可以用，但是效果一般。如果一定要在其他尺寸上用的话可以在源程序中更改所有与图片W、H参数相关的参数和数据，例如K值、重构函数、解码器层等等。不过也要提一下monodepth2这篇文章，我似乎发现一个小问题，但凡图片中包含人、围栏、车这些物体时，会比较准，但是不包含，例如只有楼，山地等场景，没有人、树、车时，似乎效果就很不理想。
下图我用了其他尺寸的图片，同时把monodepth2编码器层由resnet18换为了mobilenetv1：
在这里插入图片描述

北科的大成哥

关注

8
点赞
踩
33

收藏

觉得还不错? 一键收藏
18
评论
monodepth2复现心得

使用paddlepaddle复现monodepth2心得前言从刚开始接触monodepth2现在，已经过去将近两个月，几乎天天都泡在使用paddlepaddle复现monodepth2的工作里，但是由于其中各种各样的bug，直到今天才终于复现出了其中70%的内容，也就是利用立体视觉作为数据集，进行弹幕深度估计。历程前前后后共进行6次复现：第一次：直接将原论文pytorch框架改为paddlepaddle框架结果：失败总结：虽然原理看的明白，但是好多paddle自身框架不太懂，论文也阅读的马马虎
复制链接

扫一扫