2017-SpyNet

最新推荐文章于 2024-05-31 09:43:51 发布

大笨钟47

最新推荐文章于 2024-05-31 09:43:51 发布

阅读量4.1k

点赞数

分类专栏： optimal flow 文章标签：深度学习计算机视觉人工智能 flow

本文链接：https://blog.csdn.net/qq_45033722/article/details/123890857

版权

optimal flow 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 概述

2. Spatial Pyramid Network

2.1 Spatial Sampling

设 $d(\cdot)$ 为降采样函数，它将一个 $m \times n$ 图像 $I$ 抽取到大小为 $\frac{m}{2}×\frac{n}{2}$ 的相应图像d(I)。设 $u(\cdot)$ 是对图像进行上采样的反向操作。这些操作符还用于对光流场 $V$ 的水平和垂直分量进行下采样和上采样。我们还定义了一个warping operator $w (I ， V)$ ，它根据流场V，使用双线性插值处理输入图像 $I$ 。

2.2 Inference

设 ${G_0，...，G_K}$ 表示一组训练过的卷积神经网络(convnet)模型，每个模型都计算残差流， $v_k$ :
$v_k=G_k(I_k^1,w(I^2_k,u(V_{k-1})),u(V_{k-1})) \tag 1$
在第 $k$ 个金字塔层。卷积网络 $G_k$ 使用来自前一个金字塔级的上采样流 $V_{k−1}$ 和在k级的帧 ${I_k^1，I_k^2\}$ 来计算残差流 $v_k$ 。第二帧 $I_k^2$ 依据光流进行处理： $w(I_k^2，u(V_{k−1}))$ 。在第 $k$ 层金字塔层的 $V_k$ 是：
$V_k=u(V_{k-1})+v_k \tag 2$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y2oKZpVO-1648778710124)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220331235412091.png)]$

我们从降采样图像 ${I_0^1，I_0^2\}$ 和一个处处为零的初始流估计开始。将网络 $G_1$ 和 ${I_1^1、w（I_1^2、u（V_0））\}$ 一起计算剩余流量 $v_1$ 。在每个金字塔层级上，我们使用方程（2）计算流 $V_k$ 。流 $V_k$ 也类似地传播到更高分辨率的金字塔层，直到我们获得全分辨率的流 $V_K$ 。

3. Traning and network architecture

我们根据给定输入 ${I_k^1，w(I_k^2，u(V_{k−1}))、u(V_{k−1})\}$ 独立地、顺序地训练每个 ${G_0，...，G_K)\}$ 。我们将目标残差流 $\hat{v}_k$ 作为目标流Vk在第k个金字塔水平的值与由训练得到的上采样流 $u(V_{k−1})$ 的差值.
$\hat{v}_k=\hat{V}_k-u(V_{k-1}) \tag 3$

我们训练每个网络 $G_k$ ，以最小化残差流 $v_k$ 的平均端点误差(EPE)损失.

$w(I^2_k,u(V_{k-1}))$ 的输出是3 channel， $u(V_{k-1})$ 的输出是2 channel。所以，最后是将 $G_k$ 的输入全部拼接成为一个8 channel的输入。该文训练了5个网络{G0，…，G4}，这样每个网络 $G_k$ 都使用之前的网络 $G_{k−1}$ 作为初始化。

4. 结果

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0oIJIFQj-1648778710125)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220401100224895.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4DvY0m7p-1648778710126)(C:\Users\Liujiawang\AppData\Roaming\Typora\typora-user-images\image-20220401100240788.png)]$

Reference:Optical Flow Estimation using a Spatial Pyramid Network

大笨钟47

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
2017-SpyNet

1. 概述2. Spatial Pyramid Network2.1 Spatial Sampling设d(⋅)d(\cdot)d(⋅)为降采样函数，它将一个m×nm×nm×n图像III抽取到大小为m2×n2\frac{m}{2}×\frac{n}{2}2m×2n的相应图像d(I)。设u(⋅)u(\cdot)u(⋅)是对图像进行上采样的反向操作。这些操作符还用于对光流场VVV的水平和垂直分量进行下采样和上采样。我们还定义了一个warping operator w(I，V)w(I，V)w(I，V)，
复制链接

扫一扫

专栏目录