光流估计FlowNet V1

最新推荐文章于 2023-10-17 12:30:36 发布

日作诗歌三千首

最新推荐文章于 2023-10-17 12:30:36 发布

阅读量456

点赞数

本文链接：https://blog.csdn.net/u012483097/article/details/105436604

版权

论文题目：FlowNet: Learning Optical Flow with Convolutional Networks

论文连接：https://arxiv.org/abs/1504.06852

该论文第一次利用cnn来解决图像间的光流估计，论文中提出两种架构：FlowNetSimple和FlowNetCorr，

（1）FlowNetSimple比较简单，如下图：

输入图像（384X512×6，即两张图像concat一起），通过六块 cnn，六次pool，提出特征（6×8×1024），在经过refinement模块，coarse-to-fine的upsample特征（136X320），如下图：

可以看出来 FlowNetSimple类似于UNet。

（2）FlowNetCorr：该网络先各自独立，经过三块cnn和三次pool，得到两个特征块（96X128X256），再经过Correlation Layer融合这两块特征，在经过一系列cnn和pool，提出特征（6×8×1024），再经过refinement模块，upsample跟FlowNetSimple一样。具体细节，如下图：

其中 Correlation Layer，计算两张图像的相关矩阵：

其中X1为image1的一个位置像素特征向量， X2为image2的一个位置像素特征向量，通过[-k,k]X[-k,k]的窗口进行点积，通过为了减少计算量，本来image1和image2每个像素点都要点乘，计算量太大，所以限制image1的X1只跟image2同样位置的像素的领域像素D=2d+1,进行点乘，这个个相关度在输出时按照channel维度上叠加起来,得到特征矩阵：，为了再进一步减少的维度，又加了一个stride操作，从而让D更小，论文D=2d+1，d=20，即D=41，如果不加stride，那么其输出矩阵的维度即为41×41=1681，经过stride后，D=21，即维度21X21=441。这样就得到最后的特征矩阵，再concat图像image1的特征，得到融合后特征。