双目匹配与视差估计_补充（侧重自监督/无监督方面）

最新推荐文章于 2024-05-27 09:55:43 发布

nzzfsw

最新推荐文章于 2024-05-27 09:55:43 发布

阅读量1.4k

点赞数 1

文章标签：计算机视觉机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nzzfsw/article/details/105541243

版权

文章百度网盘（图片上传总是失败，想看图的话直接下载word吧）：

链接：https://pan.baidu.com/s/1thJ9u7vyUrg8N9fBBeh6Uw
提取码：813e

PYD-NET（iros2018）

与多数策略一样，将深度估计视为图像重建问题去解决。对每一对无标签的数据，左视图通过网络处理获得逆深度图（即视差图disparity maps）。PyD Net可以计算190万个参数，在Titan X Maxwell GPU上运行大约15ms，而Unsupervised Monocular Depth Estimation with Left-Right Consistency[2]使用VGG模型时，可以计算3100万个参数，需要35ms。作者认为本文的简单模型甚至可以在嵌入式系统或智能手机的低端CPU上有效部署。

转存失败重新上传取消

转存失败重新上传取消

Pyramidal features extractor

输入图片的特征提取是通过encoder12个卷积层实现的。每一个level有一个stride 2的卷积层并后接一个第二卷积层，这样的level有六个。每个卷积层卷积核都是3*3，激活函数使用leaky ReLU。这样的coarse-to-ﬁne方法可以在high levels（即网络的底层）获得图像的全局内容，也可以在low levels（即网络的高层）去提炼细节。

Depth decoders and upsampling

提取到的特征是通过四个卷积层组成的depth decoder进行处理，输出feature maps。这个decoder有两个作用：1）在当下层提取一个深度图；2）将这些features经过22的deconvolution传递给上一个level。然后上一个level将从input提取出的features和传递过来的features连接起来，再将它们送去新的decoder处理。重复这个操作直至网络最高层。所有的deconvolutional layers都是leaky ReLU激活，除了最后一个deconvolutional层使用sigmoid函数激活来归一化outputs。这样的结构使PyD-Net在每个尺度下去学习预测深度图。

Training Loss

同Unsupervised Monocular Depth Estimation with Left-Right Consistency[2]。

实验结果

Accuracy evaluation on Eigen split

转存失败重新上传取消

上图比较了该方法与其他监督或者非监督的方法。表的第一部分为与其他方法的比较，表中间部分为评估最大深度达到50的预测深度图，从之前和这部分可以看出训练epochs越多（50代表训练50个epochs，200代表训练200个），网络performance越好。表最下面部分是在额外的数据集上训练，作者首先在cs数据集上训练50 epochs，然后在K数据集上进行微调。该网络的表现要明显优于Zhou的。

总的来说，该网络比大多数复杂网络的预测结果要好，在一些情况下也可与top-performing的方法媲美。

Runtime analysis on different architectures

该网络在不同的尺度下预测深度，在网络的高层会有更好的准确度。对于任意网络训练的例子，如果从网络的低层输出，可以减少计算量，内参需求和运行时间。下表给出了不同层处理和不同设备上运行的比较结果。F是full，H是half，Q是quarter，E是eight分辨率。

转存失败重新上传取消

可以看出，层级越低，运行时间越短，并且PyD-Net明显需要更少的运行时间，是可以在低端处理器上进行实时预测的。下图和表给出具体的在不同层级上的比较结果

转存失败重新上传取消

转存失败重新上传取消

代码链接：https://github.com/mattpoggi/pydnet (tensorflow)

3Net（3DV2018）

文章提出三目训练的方法（从当前的双目数据集便可以产生三目数据），改善了Unsupervised Monocular Depth Estimation with Left-Right Consistency[12]这篇文章提到的图像边界以及遮挡周围产生的伪影问题。

转存失败重新上传取消

转存失败重新上传取消

Loss

同文章[12]外，另外引进了：

转存失败重新上传取消

实验结果

转存失败重新上传取消

转存失败重新上传取消

代码链接： https://github.com/mattpoggi/3net (tensorflow with only tested)

Train 3net from scratch

Code for training will be (eventually) uploaded. Meanwhile, you can train 3net by embedding it into https://github.com/mrharicot/monodepth

Monodepth2（cvpr2019）

文章围绕单目运动（以单目视频序列作为训练集，连续三帧为一组）设计，但是对立体图像对训练也有不错的效果。

转存失败重新上传取消

三点创新（前两点针对单目运动）：

1.Per-Pixel Minimum Reprojection Loss

转存失败重新上传取消

2.Auto-Masking Stationary Pixels

转存失败重新上传取消

3.Multi-scale Estimation

文章使用了Unet的结构，是一个多尺度的方法，对上采样过程中的每一层特征图都计算一个loss。但是不同于其他文章和方法的直接计算，本文是先把每一层特征图先经过一个额外的上采样，恢复到原图大小，然后再用原图大小的特征图和原图直接计算loss。

文章解释这样解决了原本小分辨率特征图对于大范围的无纹理区域，预测产生的holes现象，以及因为小特征图损失信息而造成的texture-copy artifacts现象

实验结果

转存失败重新上传取消

转存失败重新上传取消

转存失败重新上传取消

代码链接：www.github.com/nianticlabs/monodepth2 (pytorch)

附：

Unsupervised Monocular Depth Estimation with Left-Right Consistency（cvpr2017）

网络通过推测视差将左图warp来匹配右图。可以只用左图同时预测两个视差，用左右一致性来增强它。通过采用双线性采样（Spatial Transform Networks）来生成图像，整个网络完全可微。

如下图所示：

转存失败重新上传取消

Naïve：从左图采样，生成与目标右图对齐的视差图。

NO LR：从右图采样输出与左图对齐的视差图。这么做的话，被推断出来的视差图表现出“纹理拷贝”人工合成和深度图连续性上面误差。

Ours: 单个左图作为卷积神经网络的输入，同时推断出左图视差和右图视差，右图只在训练时候使用。用左右图一致性损失增强左右视差图的一致性可以让结果更准确。

Loss

由外观匹配loss，视差平滑loss以及左右一致性loss组成.

Appearance Matching Loss:

转存失败重新上传取消

这里作者用了简化的SSIM，3*3块作为滤波器，而不是用高斯，设置转存失败重新上传取消。

Disparity Smoothness Loss:

转存失败重新上传取消

Left-Right Disparity Consistency Loss:

转存失败重新上传取消

最后的训练损失：

转存失败重新上传取消

其中每一项都包换左右视图，但是只有左图会喂到卷积层中。s代表尺度，本文选取4个尺度，组成总体损失：

转存失败重新上传取消。

在测试的时候，网络在最好的尺度层预测左图视差图，它的分辨率和输入图像一样。

后处理

为了减少立体遮挡的影响（立体遮挡会在图像的左侧和遮挡物的左侧产生视差斜坡），作者做了个后处理。对于测试时候的输入图片I，计算它镜面翻转之后的图I’的视差图dl’，通过把这个视差图翻转回去，得到一个视差图dl’’，接着将这个视差图对齐dl，而此时视差坡是在图像的右侧和遮挡物的右侧，结合两个视差图组成最后的结果（用dl’’的左边5%和dl的右边5%），中间部分是两个视差图之间的平均。这一步后处理提升了准确度并且减少了人工合成的感觉。但是代价是测试时间加倍了。

实验结果

转存失败重新上传取消

转存失败重新上传取消

代码链接：https://github.com/mrharicot/monodepth（tensorflow）

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
双目匹配与视差估计_补充（侧重自监督/无监督方面）

文章百度网盘（图片上传总是失败，想看图的话直接下载word吧）：链接：https://pan.baidu.com/s/1thJ9u7vyUrg8N9fBBeh6Uw提取码：813ePYD-NET（iros2018）与多数策略一样，将深度估计视为图像重建问题去解决。对每一对无标签的数据，左视图通过网络处理获得逆深度图（即视差图disparity maps）。PyD Net可以...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。