论文笔记-深度估计(1)Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Kevin_cc98/article/details/78935252

Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

作者认为以前估计深度的方法大概是基于几何代数、优化求解的方法来获得空间信息,但对于单张图片,仅仅基于几何信息是无法判断它的真实尺度的,因为没有先验信息的话,它的尺度是无法进行估计的。单张图深度估计,以人为例,需要综合考虑线条角度,透视关系,物体大小,图像位置以及环境效果等因素。因此融合其他信息的深度网络有望获得更好的单张图深度预测。

网络

为此作者提出一个有监督的包含两个网络的coarse to fine深度学习网络来进行深度估计:coarse网络估计整张图的全局预测,而另外一个网络来对局部信息进行refine:

这里写图片描述

第一个coarse-scale网络和VGG等分类网络是一致的,卷积层+全连接层,得到的输出作为网络而的输入。它最终的输出大小只有输入的1/4大小。RELU,Dropout,不能缺 ;在ImageNet上pretrain好的model,减少工作量。

第二个fine-scale网络用来做精细化调整,比如目标物体的轮廓。这个网络仅仅包含卷积层,这让人想起了同年后面出来的FCR文章(参看博文列表)。

该网络将原来的图片进行卷积操作得到原图的1/4大小,并和第一个网络的输出接在一起(可能就是直接作为向量接在一起)。

训练时先训练好第一个网络,再将输出作为第二层网络来训练第二层网络。也就是:整个后向传播过程只在各自网络进行。

由于没有用到现在大家通用的deconvolution,最终输入大小为为原图1/2的fine网络的输出大小为原图的1/4,这是本文网络的最终输出。

价值函数

与一般作者会用预测值与真实值的绝对误差(欧式距离)不同,作者提出一个类似余弦误差的概念——尺度不变误差(Scale-Invariant Error)

这里写图片描述

这里写图片描述

其中y是真实值,y是预测值。n是像素个数。α是它们在对数空间上的插值的平均值。因此尺度不变误差可以看做均值化后差异。

这儿之所以单独提出来,是因为α 可以此作为预测情况与真实值之间的scale。假如预测值是ai或者k倍ai,它们与真实值的差异都一样。

可以将变形式子(2)的后一个等式的最后一项看做两个向量相乘。可以看出,对于两组预测深度,如果它们的方向一样,也就是每个对应元素之间都存在一个相同的缩放因子,那么这两种预测与真值之间的差异就是相等的。
最后的价值函数如下:
这里写图片描述

λ[0,1]为1时则为尺度不变误差(即最终预测值和真实值存在一个共同的缩放因子即可),为0则为L2误差(即最终预测值需要和真实值一模一样)。作者取其中间0.5。这样得到的效果最好,既包含绝对信息又包含相对信息,但论文最后的评价体系是

最后作者提到会融合更多的几何信息,比如法向量等。

阅读更多
换一批

没有更多推荐了,返回首页