论文地址:https://arxiv.org/abs/1512.02134v1
背景
光流估计(optial flow estimation)可以在一个大型合成数据集上训练,受此启发,本文将光流估计模型扩展到视差估计(disparity estimation)和场景流估计(Scene Flow estimation),在大型合成数据集上使用CNN来解决视差估计与场景流估计问题;
网络结构
DispNet是基于FlowNet的结构进行小改而来,网路的整体与FlowNet的结构是一致的;
FlowNet
Encoder:
由于FlowNet拥有两个版本,DispNet继承了其特征,也拥DispNetSimple与DispNetCorr两个版本;
DispNetSimple-Encoder:
Simple版本的DispNet将左右视图的图像在channel通道concat成6通道的输入,送入CNN中提取得到融合左右视图的特征图;
DispNetCorr-Encoder:
Corr版本的DispNet将左右视图送入权重共享的Encoder中提取特征,再对两个特征图进行匹配,得到他们之间的联系。
假设提取得到左右视图的特征图为
f
1
∈
R
c
×
h
×
w
与
f
2
∈
R
c
×
h
×
w
f_{1}\in R^{c\times h\times w}与f_{2}\in R^{c\times h\times w}
f1∈Rc×h×w与f2∈Rc×h×w:
c
(
x
1
,
x
2
)
=
∑
o
∈
[
−
k
,
k
]
⟨
f
1
(
x
1
+
o
)
,
f
2
(
x
2
+
o
)
⟩
(1)
\begin{array}{c} c\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)=\sum_{\mathbf{o} \in[-k, k] }\left\langle\mathbf{f}_{1}\left(\mathbf{x}_{1}+\mathbf{o}\right), \mathbf{f}_{2}\left(\mathbf{x}_{2}+\mathbf{o}\right)\right\rangle \end{array}\tag{1}
c(x1,x2)=∑o∈[−k,k]⟨f1(x1+o),f2(x2+o)⟩(1)
其中原文中为了降低计算量,左图
x
1
x_{1}
x1 点在只在右图的
[
x
−
d
,
x
+
d
]
[x-d, x+d]
[x−d,x+d] 的范围内计算相关性;最后得到的输出相关性特征图大小为
[
2
d
+
1
,
H
,
W
]
[2d+1, H, W]
[2d+1,H,W],因为视图已经经过极线校正,所以只在x方向上求相关性;
Decoder:
Decoder部分,采用反卷积,同时使用上一个特征层的预测值双线性插值后与本层的特征图在channel通道上concat(使视差图平滑),最后得到视差图;
实验结果