此类方法不匹配图像要素,直接根据输入图片学习深度。第一类方法是一个编码器,第二类方法是编码器加一个顶层网络。
网络框架
编码器
h
h
h 用卷积网络学习(类似前面),
x
=
h
(
I
)
x=h(\mathbf{I})
x=h(I) 。顶层网络
g
g
g ,目标视点
v
v
v 。视差估计值
D
^
=
g
(
h
(
I
)
,
v
)
=
(
g
∘
h
)
(
I
,
v
)
\hat{D}=g(h(\mathbf{I}), v)=(g \circ h)(\mathbf{I}, v)
D^=g(h(I),v)=(g∘h)(I,v) 。一些方法将全连接的卷积网络作为顶层网络,另一些方法用上卷积层组成解码器。
通常,编码器阶段由卷积层组成,这些层捕获图像要素之间的局部交互,然后是多个完全连接的图层,这些层捕获全局交互。 某些图层之后是空洞卷积操作,以减少输出的分辨率。解码过程可以使用一系列完全连接的层或向上卷积层来完成。
具体方法待续。。。