使用可微分的sfm求得视频中的深度
0 摘要:
说的是讲深度学习和图像的几何原理结合起来进行端到端的学习,分为两个阶段:运动估计和深度估计
1 介绍:
就是说从视频中求得深度图,传统的的方法是使用sfm,来求优化求得3D结构和相机的运动,然后将相机的参数放在多视图几何来获得完整的深度。深度学习也在3D重建中效果比较好,他们有些优点吧,可以从单个图片中直接学得深度,而且网络块是可闻分的,可以从数据直接学习。但是一般网络直接从多视图几何图像中来训练时困难的(比如帧之间的联系),所以说将多视图几何的知识嵌入到层或者损失的设计上面是比较好的。
所以本文的工作就是结合神经网络强大的特征表达能力,加上多视图几何的内容来估计深度。
2 相关工作:
sfm:早期设计的为少量图片集,优缺点,在低温里,遮挡,光照变化的情况下,会产生噪声,丢失重要信息。
几何和深度学习:几何原理激发了很多深度学习的设计,需要解决两个问题:深度的估计和运动的估计。
深度:起初是按照立体结合原理设计的端到端的网络:首先是使用2维的卷积网络来提取特征,然后在提取的特征上建立一个代价向量,接着把代价这一维度加在2维的特征上形成3维,来进行特征匹配和正则化,这个思想完全是来自立体几何的原理。然后将这个原理迁移到从多视图中估计3D结构上,但是这些网络需要相机的姿态作为输入,但是视频中我们不知道相机的运动
运动:当然有很多在研究这个问题,对于运动估计的网络典型的是运用一般的网络构建,我们使用最小二乘法来