引导方法深度补全系列—晚期融合模型—1—《Dense depth posterior (ddp) from single image and sparse range》文章细读

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


创新点

1.提出了基于贝叶斯理论的两步法网络做深度补全


文章概述

       提出了两步法,实际上关键是先验模型,结合假设深度图d下观察到的稀疏点云z的可能性模型计算的,为了得出后验概率,并由此得出基准评估深度图的最大后验概率(MAP)估计:

1.我们没有为稀疏输入使用专门设计的层,例如稀疏不变层。

2.与稀疏深度和图像的早期融合不同,我们的深度将融合推迟到解码,这需要更少的可学习参数

3.使用的还是resnet

实施细节

1.我们通过用密集深度图替换编码分支的输入来修改CPN[36]的公共实现。两个分支的融合只是编码的串联。编码器只有卷积层,而解码器由用于上采样的转置卷积层组成

2.学习后,我们将CPN作为训练损失的一部分,在推理过程中不需要它

3.使用虚拟KITTI数据集[11]训练CPN

4.使用张量流实现了我们的方法。我们使用Adam优化我们的网络,使其具有与CPN训练相同的批量大小和学习速率调度。我们应用直方图均衡,并将图像随机裁剪到768×320。此外,我们还应用了垂直和水平随机翻转来防止过度拟合。在无监督训练的情况下,我们还在3×3邻域内对稀疏深度输入和相应的有效性映射执行随机移位。

5.有监督方法变为无监督方法时,改变了网络结构,我们将第一层的步长从1更改为2,并用最近邻上采样替换解码器的最后一层。

对比sparse_RGBD

1.他将深度补全任务放大称为数据补全(图像修复)

2.Spade_RGBD提出晚期融合模型更早,但他用这种晚期融合模型是为了稀疏深度图下语义分割效果更好

3.缺点:该编码器-解码器在稀疏深度上表现出可接受的性能,但未能从密集RGB中提取良好的特征。

4.对于稀疏卷积:掩模饱和(视为有效的百分比)如预期的那样随输入密度而增加,但仅在几层之后就达到几乎完全饱和,这意味着有效性信息在后面的层中很快丢失。

5.对于早期融合模型:为了同时从两者进行推理,似乎最好在融合之前将其转换为类似的特征空间

早期融合有没有解决这个问题?

tips

训练CPN数据集:

Gaidon A, Wang Q, Cabon Y, et al. Virtual worlds as proxy for multi-object tracking analysis[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 4340-4349.

 

文章贡献:

1.介绍了生成虚拟世界视频数据集的方法

2.创建了虚拟的kitti数据集

3.比较了真实世界和虚拟世界在学习深度模型上的有效性

4.因为是虚拟的世界,可以人为的加入干扰条件(雨雾等)进行实验

 

监督DCN的数据集:

Uhrig J, Schneider N, Schneider L, et al. Sparsity invariant cnns[C]//2017 international conference on 3D Vision (3DV). IEEE, 2017: 11-20.

       来自文章里的方法对稀疏深度补全后的kitti数据集,ground truth深度图获取的一种方法是用数据集进行重建,渲染,然后得到获取补全后的depth图像作为真值.

       我们进一步遵循[16]并累积11次激光扫描,以增加生成深度图的密度

方法详解

 

A:上分支对密集深度进行编码,并与图像编码相连,以在解码器处生成深度的密集重建,以及可作为后验分数的归一化似然。我们将CPN视为一个函数,在给定图像(下分支输入)的情况下,该函数将任何样本假设深度图(上分支输入)映射为正实数,该实数表示给定图像的输入密集深度图的条件概率先验。

      CPN网络作用是学习先验概率,即图像对应其稠密深度值的这种映射关系,然后网络的输出为重建的稠密深度,此时的输出可以当作用于计算后验概率的似然,由于似然相当于给计算概率加上了参数,所以CPN网络的输出也就作为这个参数进行后续的计算。

B:它具有对称的两个分支结构,每个分支对不同类型的输入进行编码:一个是稀疏深度,另一个是图像;为两个分支启用跳过连接。与稀疏深度和图像的早期融合不同,我们的深度将融合推迟到解码,这需要更少的可学习参数。

      DCN网络属于有监督方法,监督信号来自稀疏卷积论文中,通过累计相邻稀疏激光雷达测量值生成的,但实际密度只有图像域的30%

CPN目的为了得到先验概率和归一化似然,本质是无监督

DCN目的得到最终的后验概率,方法是有监督的

KITTI基准中“监督”和“非监督”之间的差异更多的是定量的,而不是定性的

下面是原始的CPN结构:

        原始的CPN结构也是作者自己2018年提出的对光流的先验网络,属于无监督方法,学习P(f | I)的条件先验网络(CPN)体系结构:上半分支对ground truth光流进行编码,然后取图像和上半编码的输出重建f

损失函数

1.CPN网络的损失:

        wCPN为CPN中的参数集合,wCPN(d,I)表示解码深度,重建误差与条件分布成比例

2.1有监督情况下的损失:

        φ为稀疏深度和图像到密集深度的映射

2.2无监督情况下的损失

        CPN等式(2)与假设深度图d下观察到的稀疏点云z的可能性模型相结合

损失函数为:

2.3视差监督

      我们利用KITTI 2015立体声基准的手动清理训练集作为参考数据。我们利用深度和差异之间的强大关系。除了稀疏深度z和图像I之外,我们还得到了第二个图像I′,作为立体对的一部分,该图像被校正(标准预处理)为一阶,我们假设存在位移s=s(x),x∈ D因此

       这是强度恒定约束,再将视差建模s=FB/d,其中F是焦距,B是摄像机的基线(光学中心之间的距离)。因此,我们可以从预测的密集深度d合成视差s,从而约束三维场景几何体的恢复。更具体地说,我们将看到给定I,d的I′的可能性建模为

        强度恒定约束受限制,再加入结构相似性SSIM,这种情况下的先验概率:

最后立体设置的损失:

       我们使用Praw(I′|I,d)和Pssim(I′|I,d)分别表示在原始光度值和SSIM分数中测量的给定I,d的I′概率。其中ψc表示等式(9)中的原始强度总和项,ψs表示SSIM对应项。

优缺点

1.虽然勉强,但也算是在有监督和无监督都做了相应的实验,得到的结果都还可以


总结

这个文章对贝叶斯相关理论解释的挺好:先验概率、似然函数与后验概率 - jianguo_wang - 博客园 (cnblogs.com)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值