AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集

关注公众号,发现CV技术之美

Xintao大佬团队的又一力作,本篇论文『AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos』针对真实动漫VSR提出了一个新的动画数据集,此外将真实世界降质算子扩展成可学习的算子,在NIQE等评价指标上实现了SOTA。

dcb6c305dc6df7fc2c14b3d6d3e7ba56.png

  • 作者单位:腾讯PCG ARC实验室

  • 论文链接:https://arxiv.org/pdf/2206.07038

      01      

看点

本文汇总了三个实现动漫VSR的三个关键改进措施:

  1. 最近的真实世界VSR方法的退化大多使用没有学习能力的基本算子,如模糊、噪声和压缩。本文建议从真实的LQ动画中学习这些基本算子,并将学习到的算子加入到退化过程中。这种基于神经网络的基本操作可以帮助更好地捕捉真实退化的分布。

  2. 建立了一个大尺度的HQ动画数据集AVC,以便对动画VSR进行训练和评估。

  3. 研究了一种高效的多尺度网络结构AnimeSR,它利用了单向循环网络的高效性和滑窗方法的有效性,达到比以前先进的方法更好的性能。

569d78596373e1d2251a1dda396a4389.png

      02      

方法

AVC数据集

训练集AVC-Train包含553个高质量的剪辑,共55300帧。测试集AVC-Test包含30个片段,共3000帧。为了评估实际场景中的方法,本文还构建了一个真实世界的测试集AVC-RealLQ,它由44个低质量片段组成,下图显示了数据集的一些示例。

a4f3b46cbf091a6ff18cade3b231480a.png

降质合成中的可学习基本算子

由于缺乏LR-HR训练对,最近的工作设计尽可能接近真实世界的退化模型,然后利用降质模型从HR中合成LR。上述降质可描述为n步:

◦◦

经典的降质模型中基本算子包括模糊、噪声、缩放、JPEG/FFMPEG压缩等。这些算子不具有任何学习能力,这在本质上限制了它们对真实世界降质的合成能力,如下图a。另一类采用大型神经网络和对抗学习方法合成LR样本。

然而,利用一个大的神经网络来学习整个退化过程和分布是一个挑战。这些方法只对有限范围的图像有效,而且通常会产生令人不快的伪影,如下图b。

本文建议学习用于降质合成的基本算子。与使用一个大型网络的方法不同,本文使用两三个卷积层训练微小的神经网络,以捕捉真实退化的主要特征,神经网络后续纳入降质合成过程。神经算子是可学习的,并且能够合成那些经典算子无法模拟的真实退化。可学习的基本算子极大地扩展了退化空间,可以覆盖更多真实的退化。

2a07d011622bd612fee881b372cc185f.png

输入缩放策略

本文使用LR-HR对以监督的方式训练可学习的基本算子。然而,获得真实世界LQ视频的LR-HR对用于训练是具有挑战性的。对于真实的LQ动画,本文使用基本算子训练退化模型获得初步结果,如下图。正如预期的那样,输出并不令人满意。通过使用不同的缩放因子(×1—×0.3)来调整输入的大小。

可以观察到,随着输入分辨率的降低,伪影逐渐减少。但是过大的降尺度因子会导致细节/信息的丢失。其中,通过在这些视频样本上缩放×0.5的输入,可以在伪影消除和细节损失之间取得良好的平衡。因此,可以手动选择一个满意的输出作为伪HR,称为“输入缩放策略”。

c53eca2f67aa2a1b8b9dcf054edae0bf.png

可学习的基本算子

本文挑选了几个具有代表性的真实世界的LQ动画来训练可学习的基本算子。首先筛选VSR模型在原比例上表现较差,但在合适的比例因子下可以产生较好结果的LQ视频,并确定每个视频的最佳缩放因子。每段LQ视频采集大约2000帧,将它们输入到VSR网络中,获得伪HR样本。然后使用LR—伪HR对训练可学习的基本算子。

神经算子由3个3 × 3卷积层组成,隐通道维数为64。在卷积层之间使用LeakyReLU激活。本文从不同的LQ视频中训练出三个可学习的基本算子,并将它们放入一个池中。在每次训练迭代时从池中随机选择一个,并将其纳入退化过程中。

网络架构

实际动画VSR中的网络结构要求在性能和效率之间取得良好的平衡。目前的实用模型如Real-ESRGAN和RealBasicVSR通常采用非常大的网络,处理非常耗时,占用大量资源。当现有视频超分辨率达到4K/8K分辨率时,这一缺点会变得更加严重。在实际VSR中通常采用单向循环结构。然而,后续帧的缺失阻碍了时间信息的利用。因此在高效的单向结构的基础上,本文进一步采用了滑动窗口结构。循环块接收一个帧序列。

5f405a4b1f1d846057e884e2441c4c68.png

如上图b,循环块中采用10个残差块的多层级设计。采用三个量表,×1,×0.5和×0.25并为这三个量表分配了5、3和2个块。本文在AnimeSR中不使用光流,因为作者根据经验发现光流不会带来明显的视觉改善。此外,光流的计算也降低了训练和推理的速度。

      03      

实验

消融实验

数据集、退化模型、多尺度结构和可学习的基本算子(LBO)的消融实验

680108915643e98d6bdce621640c35e1.png

定量评估

作者认为NR-IQA指标并不总是与视觉质量一致,特别是在更精细的尺度上,所用的MANIQA比NIQE更符合感知视觉质量。

26da64b7aa49cf996f03854891dbc4b1.png

定性评估

263ebea8634f8e9b28c87962f77ba178.png

      04      

总结

本文出自xintao大佬团队,AnimeSR的主要贡献如下:从真实的LQ动画中学习降质算子以更好地捕捉真实退化的分布;构建了一个大规模的HQ动画视频数据集AVC以便于动画VSR的训练和评估;有效的“输入缩放策略”使学习这些神经操作成为可能;进一步研究了一种高效的多尺度网络结构使AnimeSR实现SOTA。针对整篇文章,笔者认为:

  1. 输入缩放策略略显主观,更加客观的筛选方案时候是否是后续可以继续研究的内容呢,其次,过往单项VSR的输入为和,本文将加入输出作为滑窗的创新点略显强求,也作为输入是否就非严格意义上的‘unidirectional’了呢?

  2. 文中在训练集的选取上是使用光流过滤静态场景,但是在VSR中提及使用光流的效果不佳,这部分没有实验或者理论的论证。所以是否是光流本身的问题导致的效果不好,使用其他的对齐方法呢?还是数据集中的运动范围单一所导致的呢?笔者认为还需更加详细的论证。

  3. 本文更多的采用MANIQA作为定量的评估指标,是否可以添加稍多的评估指标例如NRQM、PI、BRISQUE等,此外,人工合成数据是否也算是真实世界中的一种呢?

0e297c1d63c8b39c0ac79625b331d25d.jpeg

END

欢迎加入「超分辨率」交流群👇备注:SR

6be9bc7f485273ca87f16f6590383ce5.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值