Monodepth2 Code笔记

7-26更新:代码在2080ti+0.4.1+cuda10.2环境下Loss依旧无法收敛

7-18更新:代码在torch1.8.0+cu111环境下可以跑通,但是Loss无法收敛,导致model推理的深度不对,可以见章节5.2的图

一、基础解析

  • Kitti文件夹的含义
    –image0文件(黑白左目)
    –image1文件(黑白右目)
    –image2文件(彩色左目)
    –image3文件(彩色右目)

  • [0, -1, 1, ‘s’]代表的含义网络的输入有4张图
    0代表读取当前帧;
    -1代表前一帧;
    +1代表后一帧;
    's’代表双目当前帧的另一侧的图片;
    每张图对应4个尺度,每个尺度都会数据增强

  • 这里的内参K是归一化的,后面使用的时候:
    第一行×当前scale的图片width,第二行×当前scale的图片height
    也要求广义逆矩阵 K − 1 K^{-1} K1
    最后得到K与inv_K

  • 从bin文件中生成真实的GT深度depth_gt

  • 双目之间的内部变换假设只有平移stereo_T
    ( 1 0 0 ± 0.1 0 1 0 0 0 0 1 0 0 0 0 1 ) \begin{pmatrix} 1 & 0 & 0 & ±0.1 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 &1 \\ \end{pmatrix} 100001000010±0.1001
    Notes: 这里的平移不设置为1,而是缩小了10倍,是为了让网络在开始时更容易训练。左目就是-0.1,右目就是0.1

总结:网络的input最终是大小为42的字典,是通过CPU进行运算的。
这里的42 = 4(输入的4张图) × 4(4个尺度) × 2(数据增强) + 4(K矩阵4个尺度) × 2(加上逆矩阵) + 2




二、Depth网络结构(看图)

深度预测网络


三、Pose网络结构(看图)

pose网络架构
总结:两个网络的outputs最终是大小为10的字典。
这里的10 = 4(Depth网络输出的4个视差尺度) + 3(角轴/平移/变换矩阵) × 2(当前到前一帧,当前到后一帧)


四、Loss计算

4.1 视差转深度图

4个尺度的视差图disp最后都是经过sigmoid的,disp∈(0, 1)。而真实的深度图depth我们想让它限定在(0.1, 100)的范围之内。故设定公式:(对应paper3.3)
d e p t h = 1 b + a × d i s p = 1 0.01 + ( 10 − 0.01 ) × d i s p depth=\frac{1}{b+a×disp}=\frac{1}{0.01+(10-0.01)×disp} depth=b+a×disp1=0.01+(100.01)×disp1
outputs新增当前帧的4个尺度预测的深度图depth(1,192,640)

4.2 深度图转点云(BackprojectDepth类

两者的详细区别在此
正常顺序是从三维点云投影到像素坐标:
( u v 1 ) = 1 Z ( f x 0 c x 0 f y c y 0 0 1 ) ( X Y Z ) = 1 Z K ( X Y Z ) \begin{pmatrix} u \\ v\\ 1\\ \end{pmatrix} = \frac{1}{Z} \begin{pmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1\\ \end{pmatrix} \begin{pmatrix} X \\ Y \\ Z \\ \end{pmatrix}= \frac{1}{Z}K\begin{pmatrix} X \\ Y \\ Z \\ \end{pmatrix} uv1=Z1fx000fy0cxcy1XYZ=Z1KXYZ
转点云就要反过来算
Z K − 1 ( u v 1 ) = ( X Y Z ) ZK^{-1} \begin{pmatrix} u \\ v\\ 1\\ \end{pmatrix} = \begin{pmatrix} X \\ Y \\ Z \\ \end{pmatrix} ZK1uv1=XYZ

4.3 重投影图片生成(BackprojectDepth类

outputs新增的一些字典键值对

字典key含义大小个数
sample重投影到当前帧的像素坐标(192, 640, 2)3×4=12
color利用F.grid_sample生成的图片(3, 192, 640)3×4=12
color_identity记录对应原尺度的输入图片(3,192,640)3×4=12

4.4 Loss计算

代码中的Loss跟paper里面的还是比较一致的,最终的loss公式如下:
L s = μ L p + λ L s L_s=\mu L_p + \lambda L_s Ls=μLp+λLs
L p L_p Lp就是光度误差,通过 L 1 L_1 L1损失与SSIM损失计算,与paper一致
L s L_s Ls就是edge-aware smoothness损失,与paper一致

不一样的点在于paper中的公式(5)对应的Automasking Stationary Pixels在代码中对广度误差 L p L_p Lp的改变为:

L m i n = μ   p e ( I t , I t ′ → t ) + ( 1 − μ ) p e ( I t , I t ′ ) L_{min}=\mu\,pe(I_t,I_{t^{'}\rightarrow t}) +(1-\mu) pe(I_t,I_{t^{'}}) Lmin=μpe(It,Itt)+(1μ)pe(It,It)
详细解释在此

代码里精妙的点在trainer.py#L478利用一句话完成了重投影误差的比较、与identity_loss的比较

4.5 整体流程图

loss计算流程图

五、实验

5.1 时间测试

使用test_simple.py对一张图进行循环:

  • 如果仅测试模型的速度 FPS=180左右
features = encoder(input_image)
outputs = depth_encoder(features)
  • 数据读取+模型推理+结果resize FPS=75左右
# Load image and preprocess
input_image = pil.open(image_path).convert('RGB')
original_width, original_height = input_image.size
input_image = input_image.resize((feed_width, feed_height), pil.LANCZOS)
input_image = transforms.ToTensor()(input_image).unsqueeze(0)

# PREDICTION
input_image = input_image.to(device)
features = encoder(input_image)
outputs = depth_decoder(features)

disp = outputs[("disp", 0)]
disp_resized = torch.nn.functional.interpolate(
    disp, (original_height, original_width), mode="bilinear", align_corners=False)

5.2 精度测试

在自己的KITTI子数据集上(太大了没下完)

abs_relsq_relrmsermse_loga1a2a3
stereo_640x192(official)0.1090.8835.0520.2100.8640.9490.975
stereo_1024x320(official)0.1070.8824.8930.2020.8750.9540.977
my_stereo_640x1920.89814.18919.2622.5260.0000.0000.000

举个例子来测试一下
原图

stereo_640x192
stereo_1024x320
my_stereo_1024x320

  • 13
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 34
    评论
### 回答1: 《算法笔记》是一本由胡凡撰写的计算机科学书籍,该书主要介绍了一些常见的算法和数据结构,并且给出了相应的代码实现。 胡凡的代码非常简洁清晰,注释详细。他的代码实现旨在提供读者一个易于理解和实现的参考模板,以提高读者对算法和数据结构的理解和应用能力。 《算法笔记》的代码实现涵盖了众多经典的算法和数据结构,如排序算法、图算法、动态规划等。通过学习这些代码,读者可以更好地理解算法的思想和设计方法。 此外,胡凡的代码实现还包括一些实际应用的案例,这使得读者能够将所学的算法和数据结构应用到自己的项目中。通过实际的案例,读者可以进一步加深对算法的认识,并学会如何将算法应用到实际问题中解决。 总的来说,胡凡的代码实现非常有参考价值,对于算法和数据结构的学习和应用都具有很大的帮助。他的代码简洁清晰,容易理解和实现,是学习算法的一本不可多得的好书。 ### 回答2: 《算法笔记》是由胡凡编写的一本关于算法的学习资料。这本书主要介绍了算法的基本概念、常见的算法思想和常用的算法模板。胡凡是一位算法领域的专家,他将自己多年的学习和研究经验融入其中,旨在帮助读者更好地理解算法的本质和应用。 在《算法笔记》中,胡凡通过清晰明确的语言和丰富多样的示例,向读者介绍了常见的排序算法、查找算法、图算法等等。同时,他还特别强调了算法的时间复杂度和空间复杂度分析的重要性,以及如何通过优化算法提升程序的效率。这对于想要提高编程水平的读者来说是非常有价值的。 胡凡的代码也是《算法笔记》的重要内容之一。他以Python为主要编程语言,用简洁而易懂的代码实现了书中介绍的各种算法。这些代码通常具有较高的复用性和可读性,既能够帮助读者理解算法的具体实现逻辑,也可以作为实际项目中的参考代码。 总之,《算法笔记》是一本很好的算法学习资料,它通过详细的讲解和清晰的代码示例,帮助读者建立了对算法的深入理解。无论是初学者还是有一定经验的程序员,都可以从中获得很多有价值的知识和技巧。通过不断地学习和实践,读者可以在编程中灵活应用这些算法,提高自己的编程水平。 ### 回答3: 《算法笔记》是一本非常经典的算法教材,由胡凡和曾磊合著。书中详细介绍了各种常见的算法及其实现方法,对算法的思想和原理进行了深入剖析,为读者提供了全面的学习指南。 在《算法笔记》中,作者以清晰的逻辑和简洁的代码,让读者了解算法设计的基本原则和常见的解题思路。胡凡的代码是书中的重要组成部分,通过实例和案例,读者可以深入理解算法的实际应用,同时也能掌握用代码实现各种算法的技巧。 胡凡的代码非常精炼和高效,他在编写代码时注重算法的时间和空间复杂度,以求得最优解。无论是经典算法的实现,如排序算法、贪心算法,还是动态规划、图算法等高级算法,胡凡的代码都能给读者带来很多启发和思考。 此外,胡凡的代码还注重代码复用和模块化设计,他通过定义适当的数据结构和函数,使得代码结构清晰,易于理解和修改。这有助于读者在实际项目中灵活运用算法,并提高编码的质量和效率。 总之,《算法笔记》中胡凡的代码是一道亮丽的风景线,它不仅仅是学习算法的工具,更是一本智慧的结晶。通过学习胡凡的代码,读者可以提升自己的算法水平,拓宽思维的广度和深度,从而在日后的工作和学习中取得更好的成果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 34
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值