Understanding Deformable Alignment in Video Super-Resolution理解

最新推荐文章于 2023-05-16 11:02:15 发布

AI未来

最新推荐文章于 2023-05-16 11:02:15 发布

阅读量1.8k

点赞数 3

分类专栏：超分辨文章标签：深度学习

本文链接：https://blog.csdn.net/qq_33590958/article/details/109683723

版权

超分辨专栏收录该内容

19 篇文章 6 订阅

订阅专栏

这是今年董超老师团队当前挂在arxiv上的一篇很有深度的文章，深入分析了在视频超分辨中，基于光流的对齐方式与可变形卷积的对齐方式之间的联系与区别。本人目前阅读了这篇文章，在这里写下自己的浅薄理解，后面有未理解清楚的地方或者有新的理解时再补充，同时欢迎大家指正留言。

注：个人估计这篇文章还只是初稿，因为个人觉得有的地方还不是讲的很清楚，比如讲offset保真损失的时候，符号指代不是很明确，交代不够清楚。

研究目标
这篇文章的目的是理清可变形卷积应用于帧间对齐的本质，并分析它与基于光流的对齐方式的区别与联系，以及为什么基于可变形卷积的对齐方式会优于基于光流的对齐方式。

理论分析
1）回顾光流的对齐方式
光流简单来说，是利用图像序列中像素在时间域上的变化，通过相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

光流实现的假设前提：
1.相邻帧之间的亮度恒定。
2.相邻视频帧的取帧时间连续，或者，相邻帧之间物体的运动比较“微小”。
3.保持空间一致性；即，同一子图像的像素点具有相同的运动。

可视化效果如图所示：
在这里插入图片描述
对于视频帧来说，最后得到是一个光流图，这个图中各个像素位置的值代表了原视频帧中各个像素位置的运动的情况。颜色的深浅代表运动幅度的大小，不同的颜色代表不同的运动方向。
之后一些运动补偿方法（插值，STN等），根据获取到的光流运动信息去warp近邻帧，让近邻帧与目标帧对齐。这里它仅仅是根据目标像素（单个像素）的光流信息（单个运动偏移情况）去warp近邻帧。
而我们接下来要讲的可变形卷积对齐方式则不同，一个目标像素不仅仅只估计了一个运动偏移，而是根据所使用的卷积的大小确定。比如一个3x3的卷积核，那么该位置上学习的运动偏移量就有9个，然后通过卷积的方式集成这九个运动偏移量，得到该像素warp后的结果，可以想象到集成的效果肯定的好于单个的（因为单个存在误差，多个间可以实现互补，减小这方面的损失）。到这里我们可以发现，光流是可变形卷积对齐方式的一个特例（当卷积核的大小为1x1时）。详细的介绍请看下文。
2）可变形卷积对齐方式

首先，可变形卷积的操作示意图所示：
在这里插入图片描述
公式表示为：
$y(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{x(p+p_k+\Delta{p_k})}\tag{1}$
当可变形卷积用于对齐时，其操作原理如下图所示：

公式表示为：
$\hat{F}_{t+i}(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{F_{t+i}(p+p_k+\Delta{p_k})}\tag{2}$
然后将公式（1）表示为如下等式：
$y(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{x_k(p)}\tag{3}$
其中：
$x_k(p)=x(p+p_k+\Delta{p_k})$
表示对于位置p而言，第k个偏移量对应的元素值。

之后将公式（3）一般化，因为按照以往卷积的方式，这里的k只能从1到 $n^2$ ，为了更加一般化将这里的 $n^2$ 用N取代，这样就可以学习到任意数目的offsets：
$y(p)=\sum_{k=1}^{N}w(p_k)\cdot{x_k(p)}\tag{4}$
仅从公式（4）看，可以将这种操作等效于一个有 $n^2$ 个通道的 $1\times1$ 卷积，这样的话就可以将二维平面上的卷积在纵向进行展开，每个通道与各个位置的偏移量对应，这个操作被称作spatial warping。之后再进行正常的卷积操作，即可得到warping后的特征。操作示意图如下所示（以 $3\times{3}$ 的核为例）：
在这里插入图片描述
为了验证何种分解方式，作者做了实验进行验证：

根据公式（4），当N=1时，相当于是一个单通道的1$\times$1卷积，此时可变形卷积对齐等效于基于光流的对齐方法

为了验证这个结论，作者做了如下实验：
在这里插入图片描述

Where does deformable alignment gain the extra performance in comparison to flow-based alignment?

结论：可变形卷积对齐方式优于基于光流的对齐方式的原因在于offset的差异性，这种差异性使得各个offset之间可以互补，从而实现更加准确对齐。

作者做了如下实验说明：
在这里插入图片描述
Is higher offset diversity always better?

作者做了如下实验说明：

结论：无限制的增加并不能带来性能上的持续提升，而是会达到一个饱和状态。
在这里插入图片描述

Can we increase the offset diversity of flow-based alignment?

结论：可以

作者做了如下实验说明：
在这里插入图片描述
特征对齐与图像对齐的差异

**结论：**基于特征的对齐方式优于基于图像的对齐
在这里插入图片描述

过去可变形卷积对齐操作在时，存在的问题是训练不稳定（学习到的offset不受约束，超越了图像的边界，被称为Overflow），对于这个问题，作者提出一个Offset-fidelity 损失，用来约束所学习到的offset，使其训练更加稳定，公式表示为：
$\hat{L}=L+\lambda\sum_{n=1}^{N}L_n\tag{5}$
L指代cb损失（L1损失的改进版，多了一项极小值 $\epsilon$ ）
其中：
$L_n=\sum_i\sum_jH(|x_{n,ij}-y_{ij}|-t)\cdot|x_{n,ij}-y_{ij}|\tag{6}$
H是一个阶跃函数。

实验验证：
在这里插入图片描述

上图中未使用offset保真损失的模型（对应蓝色曲线）在300K迭代次数时，出现损失上升的情况，这里说明出现了offset溢出情况。而使用了该损失的模型（对应橙色曲线）则稳定的下降，这说明了该函数在抑制offset溢出方面的有效性。
在这里插入图片描述

结论

通过分析基于光流的对齐方法和可变形对齐方法的联系，发现可变形卷积可以分解为spatial warping和卷积的组合，当offset为1时等价于基于光流的对齐方法，进一步分析可变形卷积对齐方式，发现它能够取得优于光流的对齐方法在于多个offset的学习，各个offset可以实现互补以达到更好的对齐效果，根据这一结论，我们可以将这种多offset的学习引入到基于光流的对齐方法，指导光流的学习，改进基于光流的对齐方法。此外，通过分析可变形卷积对齐方法在训练中存在的不稳定原因（所学的offset不受约束，超出了图像索引范围），提出了一个offset-fidelity 损失用于约束offset的学习。实验证明了这些结论的可靠性。

AI未来

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
Understanding Deformable Alignment in Video Super-Resolution理解

这是今年董超老师团队当前挂在arxiv上的一篇很有深度的文章，深入分析了在视频超分辨中，基于光流的对齐方式与可变形卷积的对齐方式之间的联系与区别。本人目前阅读了这篇文章，在这里写下自己的浅薄理解，后面有未理解清楚的地方或者有新的理解时再补充，同时欢迎大家指正留言。注：个人估计这篇文章还只是初稿，因为个人觉得有的地方还不是讲的很清楚，比如讲offset保真损失的时候，符号指代不是很明确，交代不够清楚。研究目标这篇文章的目的是理清可变形卷积应用于帧间对齐的本质，并分析它与基于光流的对齐方式的区别与联系，以
复制链接

扫一扫