Memory-Augmented Non-Local Attention for Video Super-Resolution

视频超分辨率的记忆增强非局部注意

code:jiy173/MANA: Official implementation of Memory-Augmented Non-Local Attention for Video Super-Resolution in CVPR 2022 (github.com)

在本文中,我们提出了一种新的视频超分辨率方法,旨在从低分辨率(LR)视频生成高保真高分辨率(HR)视频。先前的方法主要利用时间相邻帧来辅助当前帧的超分辨率。这些方法的性能有限,因为它们受到空间帧对齐的挑战,并且缺少来自类似LR相邻帧的有用信息。相比之下,我们设计了一种跨帧非局部关注机制,该机制允许视频超分辨率而无需帧对齐,从而对视频中的大运动更加鲁棒。此外,为了获取超出相邻帧的信息,我们设计了一个新的记忆增强注意力模块,以在超分辨率训练期间记忆一般视频细节。实验结果表明,与不对齐帧的最新方法相比,我们的方法可以在大运动视频上获得优异的性能。我们的源代码将发布

1. Introduction

视频超分辨率任务旨在从低分辨率输入视频中生成高分辨率视频,并恢复帧中的高频细节。由于其在在线视频流服务和电影行业的潜在应用,它正受到更多关注。视频超分辨率任务有两大挑战。第一个挑战来自视频的动态特性。为了确保时间一致性并提高视觉保真度,视频超分辨率方法寻求融合来自多个相邻帧的信息。由于视频中帧之间的运动,需要在融合之前对齐相邻帧。最近的视频超分辨率工作已经提出了将相邻帧与当前帧对齐的各种方法,或者通过使用光流的显式扭曲[2,17,20,27],或者使用可变形卷积的学习隐式对齐[28,31]。然而这些工作的质量高度依赖于相邻帧的空间对准精度,在具有大动作的视频中难以实现。这阻碍了现有视频超分辨率方法在真实世界视频中的应用,例如以自我为中心的体育视频(见第4.1节中的跑酷数据集),以及一些来自动画、电影和vlog的视频(见补充材料中的其他示例)。第二个挑战来自高频细节的不可逆损失和低分辨率视频中有用信息的缺乏。最近基于学习的单图像超分辨率工作[5,12,13,16,18,25,29,33,37,48]已经深入研究了通过学习普通图像从低分辨率图像进行视觉重建,在帮助从高分辨率参考图像恢复高频细节或转移纹理之前。由于这些方法不能保证视觉外观的时间一致性,因此它们通常生成的结果不如使用相邻帧信息的视频超分辨率方法。然而,在视频超分辨率任务中,相邻帧在很大程度上彼此相似,并且融合它们的益处有限。对于大型运动视频,相邻帧变得不那么相似。在这种情况下,相邻帧之间的相关性也变小,视频超分辨率基本上退化为单个图像超分辨率,因为它无法通过挖掘相邻帧找到任何有用的信息,

为了解决这些问题,我们提出了一种用于视频超分辨率的记忆增强非局部注意力框架。我们的方法是基于深度学习的方法。将一组连续的低分辨率视频帧作为输入,我们的网络通过参考来自其相邻帧的信息来生成时间中心帧的高分辨率版本。由于连续帧共享大部分视觉内容,因此该方案隐式地确保了结果的时间一致性。为了解决帧对齐问题,我们设计了跨帧非本地注意模块,该模块允许我们融合相邻帧,而不将它们对准当前帧。尽管传统的非局部注意力可以捕捉时间和空间上的长距离对应,但它需要计算查询中每个像素和关键字之间的成对相关性。这给GPU内存带来了很大的负担,因为在视频超分辨率情况下,像Wang等人[32]一样对视频进行下采样,不希望丢失更多的高频细节。为了在视频超分辨率中实现非局部关注,在跨帧非局部关注模块中,我们只查询相邻帧中其9×9空间邻域内的当前帧像素。此外,不像传统的非局部注意那样使用softmax归一化相关矩阵来组合值张量,我们只对值张量中最相关的像素进行采样,即一个热点注意。我们的一个热点非本地关注是有效的,特别是对于具有大动作的视频。在图1(a)中,虽然最先进的视频超分辨率方法EDVR[31]和TOFlow[36]因融合未对齐的帧而失败,但我们的方法重建了尖锐的细节,如屋顶上的条纹和挥动的手臂。我们在第4节中对我们的一次性非本地关注框架的有效性进行了全面验证。

为了解决信息缺乏的挑战,我们寻求在当前视频之外融合有用的信息。这意味着网络应该记住以前在训练集中超级解析其他视频的经验。基于这一原理,我们在网络中引入了记忆增强注意力模块。在本模块中,我们维护了在视频超分辨率训练期间完全学习的2D存储器库。目的模块是总结整个训练集中具有代表性的局部细节,并将其用作外部参考,以超级解析当前视频帧。根据我们的经验,通过引入内存库机制,我们的工作是第一种结合了当前视频以外信息的视频超分辨率方法。在记忆增强注意力模块的帮助下,我们的方法可以恢复低分辨率视频中缺失的细节,如图1(b)中的阳台栏杆

在本文中,我们的贡献包括:跨框架非局部关注。我们引入了一种新的跨帧非局部关注,它将视频超分辨率从容易出错的帧对齐过程中解放出来。这种设计使我们的方法对具有大运动的视频具有鲁棒性。(见第3.2节)视频超分辨率超出当前视频。我们在视频超分辨率中提出了一种新的记忆增强机制,该机制在训练过程中记忆以前的经验,并使用记忆来辅助当前的视频超分辨率。(见第3.3节和第3.4节)

......

2. Related Work

超分辨注意力机制中的非局部注意力已被证明在各种计算机视觉任务中有效[6,9,19,43,45,46]。Wang等人[32]提出的非局部神经网络捕获视频片段内的像素相关性,从而使时间和空间上的远距离注意力成为可能。最近使用非局部注意力的图像超分辨率方法包括CSNLN[18]、RNAN[46]和TTSR[38]。视频超分辨率方法PFNL[42]还利用了一组连续视频帧上的自我关注。然而,直接应用非本地注意力需要存储查询和键之间的成对相关性。在视频超分辨率任务中,相关矩阵的大小与视频段中的像素总数呈二次方增长,并且当输入帧大小较大时变得难以处理。此外,如我们将在第3.2节中讨论的那样,更多像素可能会降低非本地注意力的性能。我们的工作在包围查询像素的补丁内执行一个热的非局部关注,并且只选择相邻帧中最相关的像素。与PFNL[42]相比,这种方法大大减少了GPU内存使用,并产生了更好的结果。

记忆模型具有记忆的神经网络在自然语言处理[1,23]、图像分类[50]和视频动作识别[8]中显示出其潜力。这些工作用一个可以在训练过程中更新或读取的显式记忆库来扩充他们的模型。受这些作品的启发,我们设计了一个记忆增强注意力模块,以整合从超级解析其他视频中获得的先前知识。在第4节中,我们将展示内存模块对视频超分辨率性能的显著提升

Memory-Augmented Attention 保持全局记忆库M∈RC0×N,以记忆训练集中普通视频中的有用信息,其中N表示记忆库中的任意数量的条目。我们使用当前帧特征直接查询内存库。然而,与关键点是相邻帧特征的嵌入版本的跨帧非本地注意模块不同,记忆库是完全学习的。

最后,交叉帧非局部关注模块Xt和记忆增强关注模块Yt的输出由两个不同的卷积层卷积,卷积层的内核大小为1,并作为残差添加到输入当前帧特征Ft。解码器对关注模块的输出进行解码,上采样模块对像素进行混洗以生成高分辨率残差。残差为双线性上采样模糊低分辨率帧添加了细节,从而生成清晰的高分辨率帧

3.2. Cross-Frame Non-local Attention

传统视频超分辨率方法中的一个主要步骤是对齐相邻帧,以便可以融合相应的像素并提高当前帧的超分辨率质量。为了实现对准,视频超分辨率工作中的典型方法包括光流[20,36]和可变形卷积[28,31]。然而,在大的运动或照明变化下,根据颜色一致性对齐像素是一项具有挑战性的任务。因此,对准的不准确将对视频超分辨率的性能产生负面影响。在我们的工作中,我们试图避免这种性能开销。正如我们在第2节中所讨论的,非局部注意力[32]能够捕获时间和空间上的长距离对应。因此,如果使用非局部关注来查询相邻帧中当前帧的像素,则可以省略帧对齐。

......

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值