《Self-Supervised Monocular Scene Flow Estimation》论文笔记

最新推荐文章于 2024-09-27 07:15:17 发布

m_buddy

最新推荐文章于 2024-09-27 07:15:17 发布

阅读量693

点赞数

分类专栏： # Optical Flow # Depth Estimation 文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/m_buddy/article/details/125270153

版权

本文介绍了一种自监督方法，用于在单目视频中估计3D场景流和深度信息。通过结合PWC-Net并利用双目图像解决scale不确定性和遮挡问题。在训练中使用双目图像进行尺度约束，测试时仍使用单目序列。方法包括光度一致性约束、3D空间点约束和遮挡处理，提高了估计准确性。

摘要由CSDN通过智能技术生成

参考代码：self-mono-sf

1. 概述

介绍：这篇文章介绍了一种自监督单目相机场景流和深度估计方法，单目场景流是需要在单目视频序列中估计出像素的3D空间移动信息，而且在没有标注的情况下完成该任务，因而其需要克服更多的困难。这篇文章的方法是在PWC-Net的基础上进行创新改进而来的，在预测过程中该方法中将3D场景流和深度估计任务组合起来，并在构建的cost-volume上进行解码预测。对于单目的视觉任务是会存在场景scale不准确、目标遮挡等情况的，对此文章引入了双目图像用于解决单目中存在的scale不准确问题，并通过光流映射采用启发式的遮挡掩膜提取机制解决遮挡的问题。在自监督的单目深度估计中一个比较头疼的问题便是场景中的运动物体，这篇文章将单目深度估计和3D场景流组合起来可看作是对该场景的一种解决思路（文章：Unsupervised Monocular Depth Learning in Dynamic Scenes也是一种类似的解决办法）。

在这篇文章中将单目深度估计与3D场景流组合起来进行预测，并将这两个任务互为补充构建约束表达用于监督。通过双目图像对、光流遮挡掩膜计算、3D空间点约束有效处理自监督过程中存在的问题（如scale问题），文章算法的预测效果见下图所示：
在这里插入图片描述

2. 方法设计

2.1 pipeline

文章方法的整体pipeline见下图所示：
在这里插入图片描述
文章的方法的主体架构是来自于双目匹配网络PWC-Net的，不同点是同时估计3D场景流和单目深度信息，并且其中的场景流不是估计的残差而是在每个level都估计完整场景流。另外一个不同点是采用自监督的形式进行约束，因而有了最下面的warp分支。

对于文章的方法为何要将scene flow和depth联合估计，以及共同使用一个解码器去预测，这里直接给出实测的性能比较以进行说明：
在这里插入图片描述

2.2 单目深度估计

在文章的任务中需要估计参考图像 $I_t$ 中像素点 $p=(p_x,p_y)$ 的3D坐标点 $P=(P_x,P_y,P_z)$ ，和该3D点到目标图像 $I_{t+1}$ 对应像素3D点 $P^{'}=(P^{'}_x,P^{'}_y,P^{'}_z)$ 的场景流 $s=(s_x,s_y,s_z)$ 。也就是下图中描绘的对应关系：
在这里插入图片描述
要准确估计场景流 $s=(s_x,s_y,s_z)$ 就需要产生运动变化的3D点准确，但是在单目场景下深度是存在scale上的不确定性，也就是下图中展示的情况（一个3D点其对应的真实深度值是存在多个解的）：

那么怎么去处理这个深度估计scale上的不确定性呢？一个有效的办法便是使用双目系统，在给定相机焦距 $f_{focal}$ ，基线距离为 $b$ ，那么对应的深度就可以描述为： $\hat{d}=\frac{f_{focal}\cdot b}{d}$ ，这样就可以解决scale带来的不确定性问题。