视频超分算法TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

最新推荐文章于 2024-04-29 19:02:27 发布

暖风️

最新推荐文章于 2024-04-29 19:02:27 发布

阅读量1.9k

点赞数 3

分类专栏：超分文章标签：超分辨率重建计算机视觉深度学习 cnn 神经网络

本文链接：https://blog.csdn.net/qq_45122568/article/details/124420554

版权

在这里插入图片描述
这篇文章基于DCN（可变形卷积）提出了一种DCN变体TDAN，隐式的运动补偿机制，flow-free的方法。与VESPCN使用flow-based方法不同。VSR通常的结构都是对齐网络+融合SR网络。在这篇文章中，对齐网络部分提出了改进，融合SR部分还是使用普通的结构，融合采用的是最简单的早期融合。
原文链接：TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution
参考目录：超分之TDAN

TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

Abstract
1 Introduction
2 Method
3 Experiments
4 Conclusion

Abstract

这篇文章出发点是：对齐多帧连续图像很重要，但是基于光流flow-based的方式来对齐参考帧与支持帧，很容易出现伪影。于是提出了一种flow-free的方法。

由于摄像机或物体的不同运动，参考帧和每个支持帧没有对齐。因此，时间对齐对VSR来说是一个关键的步骤。以前的VSR方法都是基于光流来进行时间对准，但是这种方法非常依赖于光流估计，如果估计值不准，那么会很大程度的影响到后续图像重建的质量。

为了解决这个问题，作者提出了一种时间可变形对齐网络（TDAN），在不计算光流的情况下，在特征级自适应对齐参考帧和每个支持帧。TDAN的对齐方法是基于DCN的一种变体。与DCN类似，TDAN使用来自参考帧和每个支持帧的特征来动态预测偏移量。通过使用相应的核进行卷积，TDAN网络使支持帧与参考帧对齐。TDAN能够缓解重建过程出现的遮挡和伪影。

VESPCN中对齐模块使用的是STN的变体，原理是学习图像两帧之间的运动估计得到运动矢量，然后通过重采样的方式来恢复支持帧的估计值，并且使其近似于参考帧。这个过程中需要用到图像运动的分析，光流是一定存在的。且输入运动估计模块的是图像本身，所以这个过程是image-wise的。

TDAN中对齐模块使用的是DCN的变体，原理是通过学习特征图像采样位置的偏移来确定偏移后的特征值，并趋近于参考帧的特征，是一种feature-wise的方法，且避免了光流估计。

1 Introduction

在视频超分任务中，由于相机抖动和物体的运动，会导致不同帧间图像发生变化，因此对齐相邻帧图像是必不可少的一个步骤。以往的对齐方式都是基于光流flow-based的方法，但其过于依赖运动估计的准确性，使得光流估计的误差很容易导致输出估计图像产生各种artifacts。

对此本文提出了一种不基于光流flow-free的对齐方法TDAN，一种隐式的运动补偿机制，通过学习支持帧特征位置的偏移，让卷积核提取变换后的特征图新位置像素，再重建支持帧，能够有效的避开光流方法。TDAN具有很强的能力和灵活性，能够处理时态场景中的各种运动条件。

本文的贡献有三个方面：

提出了一种one-stage的特征级可变形对齐网络（TDAN），是一种flow-free方法；
网络整体由两部分组成：基于DCN的对齐网络TDAN + 融合SR网络，是一种端到端可训练VSR框架；
在Vid4数据集上实现了SOTA的表现。

2 Method

2.1 Overview

整体结构：
由两个子网络组成：一个用于将每个支持帧与参考帧对齐的时间可变形对齐网络（TDAN）和一个用于预测HR帧的SR重建网络。

在这里插入图片描述
接下来用 $I_t^{LR}\in\mathbb{R}^{H\times W\times C}$ 表示视频第 $t$ 帧， $I_{t}^{HR}\in \mathbb{R}^{sH\times sW\times C}$ 表示视频第 $t$ 帧对应的高分辨率图像，即Ground Truth，其中 $s$ 为SR放大倍率，而 $I_t^{HR'}\in\mathbb{R}^{sH\times sW\times C}$ 表示超分的结果。

VSR的目标就是每次将视频中连续的2 $N + 1$ 帧 ${I_i^{LR}\}^{t+N}_{t-N}$ 输入进网络，超分出 $I_t^{HR'}$ 。
在这 $2 N + 1$ 帧中，第 $t$ 帧 $I_t^{LR}$ 为参考帧，其余 $2 N$ 帧 $\{I_{t-N}^{LR},\cdots, I_{t-1}^{LR}, I_{t+1}^{LR},\cdots, I_{t+N}^{LR}\}$ 为支持帧。

整体网络结构分为两部分：

TDAN对齐网络。对齐物体或相机运动带来的内容不匹配问题。
SR重建网络。将对齐后的 $2 N + 1$ 帧进行融合然后超分的过程。

TDAN对齐网络：
对齐网络每次输入2帧，其中一帧是固定参考帧 $I_t^{LR}$ ，另一帧是支持帧 $I_i^{LR},i\in\{t-N, \cdots, t-1,t+1, \cdots t+N\}$

最低0.47元/天解锁文章

暖风️

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
视频超分算法TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

原文链接：TDAN: Temporally-Deformable Alignment Network for Video Super-ResolutionTDAN: Temporally-Deformable Alignment Network for Video Super-ResolutionAbstract二级目录三级目录Abstract视频超分辨率（VSR）旨在从相应的低分辨率（LR）帧（参考帧）和多个相邻帧（支持帧）恢复照片级真实感的高分辨率（HR）视频帧。由于摄像机或物体的不同运动，参考.
复制链接

扫一扫