三维视觉论文阅读:Eigen2015单目深度估计

该论文提出了一种多尺度卷积网络架构,用于同时预测图像的深度、表面法向量和语义标签。网络包括特征提取、预测和优化三个层次,通过全连接层实现全局信息的捕捉。损失函数增加了平滑项,以优化深度预测的连续性。实验结果显示,网络的增加和改进的损失函数显著提升了预测结果的准确性。
摘要由CSDN通过智能技术生成

论文

Predicting Depth, Surface Normals and Semantic Labels with a Common Multi-Scale Convolutional Architecture

摘要

相比与Eigen2014,Eigen2015一方面考虑使用网络同时估计深度、法向以及语义信息,另一方面还对网络进行了一定程度的升级,更深更复杂。

网络模型

下图展示了文章中提出的网络模型,其共可以分为三层。
第一层为特征提取层,无论是用AlexNet还是VGGNet,都是先提取特征,得到一个高维特征向量,然后reshape和上采样得到一个多通道的特征图。作者在介绍此网络层的时候,其实是非常推崇其中的全连接层,因为他认为全连接可以使得网络有全局视野。
第二层为预测层,其输入包括原始影像和来自第一层的特征提取层,最后输出最终的预测结果。可能是显卡更好了,相比Eigen2014,Eigen2015可以得到分辨率更高的结果。同时作者还强调了一下,第二层的输入是第一层的特征图,而不是第一层的结果;这个操作的目的是使得第一层和第二层可以一起训练,而不是Eigen2014那样分开训练。
第三层为优化层,一般是固定第一层和第二层,对粗糙的结果进行优化。
总的来说,Eigen2015和Eigen2014还是有很多相似之处,唯一的变化就是网络层数确实是多了好多~~。
在这里插入图片描述

损失函数

Eigen2014里已经充分介绍了尺度不变的损失函数,作者在Eigen2015里又稍微升级了一下,就是加了一个平滑项(其实有点法向量的意思,就是让你深度更平滑),其计算公式如下。前两项已经很清楚了,最后一项就是一个基于梯度的平滑。
在这里插入图片描述
除了深度的损失函数,还是法向量的损失函数和语义分割的损失函数,一个是向量角度差,一个是交叉熵。感觉没有介绍的动力。。。。

结果及分析

博主比较关注深度预测结果,所以就贴一个,直接说一下结论。然深度的估计结果更好了,这其中网络深度和损失函数都功不可没。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值