论文阅读《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Es》

CV科研随想录

已于 2022-05-23 20:57:07 修改

阅读量2.4k

点赞数 2

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉人工智能

于 2022-03-28 15:40:48 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/123791158

版权

CV顶会(刊)论文阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

论文地址：https://arxiv.org/abs/1512.02134v1

背景

光流估计（optial flow estimation）可以在一个大型合成数据集上训练，受此启发，本文将光流估计模型扩展到视差估计（disparity estimation）和场景流估计（Scene Flow estimation），在大型合成数据集上使用CNN来解决视差估计与场景流估计问题；

网络结构

DispNet是基于FlowNet的结构进行小改而来，网路的整体与FlowNet的结构是一致的；
FlowNet
在这里插入图片描述

Encoder：
由于FlowNet拥有两个版本，DispNet继承了其特征，也拥DispNetSimple与DispNetCorr两个版本；
DispNetSimple-Encoder：
Simple版本的DispNet将左右视图的图像在channel通道concat成6通道的输入，送入CNN中提取得到融合左右视图的特征图；
在这里插入图片描述
DispNetCorr-Encoder：
Corr版本的DispNet将左右视图送入权重共享的Encoder中提取特征，再对两个特征图进行匹配，得到他们之间的联系。

假设提取得到左右视图的特征图为 $f_{1}\in R^{c\times h\times w}与f_{2}\in R^{c\times h\times w}$ ：
$\begin{array}{c} c\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)=\sum_{\mathbf{o} \in[-k, k] }\left\langle\mathbf{f}_{1}\left(\mathbf{x}_{1}+\mathbf{o}\right), \mathbf{f}_{2}\left(\mathbf{x}_{2}+\mathbf{o}\right)\right\rangle \end{array}\tag{1}$
其中原文中为了降低计算量，左图 $x_{1}$ 点在只在右图的 $[x - d, x + d]$ 的范围内计算相关性；最后得到的输出相关性特征图大小为 $[2 d + 1, H, W]$ ，因为视图已经经过极线校正，所以只在x方向上求相关性；

Decoder：
在这里插入图片描述
Decoder部分，采用反卷积，同时使用上一个特征层的预测值双线性插值后与本层的特征图在channel通道上concat（使视差图平滑），最后得到视差图；

实验结果

在这里插入图片描述

CV科研随想录

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Es》

论文地址：https://arxiv.org/abs/1512.02134v1背景光流估计（optial flow estimation）可以在一个大型合成数据集上训练，受此启发，本文将光流估计模型扩展到视差估计（disparity estimation）和场景流估计（Scene Flow estimation），在大型合成数据集上使用CNN来解决视差估计与场景流估计问题；网络结构DispNet是基于FlowNet的结构进行小改而来，网路的整体与FlowNet的结构是一致的；FlowNet
复制链接

扫一扫