Q:SfMLearner、GeoNet等在深度估计的时候均有用到特征金子塔,不是很理解,写论文的时候看到一篇期刊,记录一下。
特征金子塔
在论文中没有详细的介绍,翻看许多论文,初始的时候以为是图像金子塔
,查阅很多高斯金子塔等资料,看的云里雾里,和论文代码始终对不上
以下是早些时候的笔记:
后来发现这是对
图像金子塔
的解释,非特征金子塔
- DepthNet
DepthNet的输入是左图五帧,经过金字塔处理,左图五帧按照通道1堆叠,接着用了金字塔堆叠,增加4个尺度,所以输入是5x4=20张图片,送入网络训练
DepthNet网络是由编码器-解码器组成,UNet结构,编码器resnet50,解码器是下采样,输出5*4个尺度的视差图
Q: 金字塔的好处
A1: 或者在低尺度下可以看清楚很多细节,在高尺度下可以看到轮廓。
A2: 两帧之间的物体的运动位移较大时,只用单张图片算法会出现比较大的误差,缩小图像尺寸减少图像中物体的运动.比如400x400的图像,物体位移为[16,16],图像缩小为200x200,位移变为[8,8],缩小为100x100,位移减少到[4,4]
- 摘自期刊:
- 题目: 利用卷积神经网络实现单目深度估计
- 作者: 王欣盛,张桂玲
“特征金字塔不同于图像金字塔,图像金字塔分别对缩小到不同尺寸的图像进行特征提取,特征金字塔在特征收缩阶段先对已提取到的特征图继续进行跨步提取,如图 2 所示,
在底层的特征拥有高的分辨率,但是提取的信息少,高层的特征分辨率较低,但是提取到了更多的信息。
高层特征在预测的同时结合低层的特征图,生成高清晰度的高阶特征图。编解码器将输入的原始图像信息转变成深度图像信息。编码器阶段利用残差网络对输入的图像提取大量特征,并且在不同的阶段对特征进行大量提取,解码器阶段对提取到的特征进行计算并进行像素级预测,得到深度图像。”
@台布落 该网站的繁体原创均为盗版,非原创且无任何授权