论文地址:https://www.semanticscholar.org/reader/b5b19cd462ece57e6f5ca370e7c47e9f3ed287b7
代码地址:未公开
HIIF: Hierarchical Encoding based Implicit Image Function for Continuous Super-resolution
1. 引言
背景知识
-
图像超分辨率(ISR)是计算机视觉和图像处理中的一个重要研究领域,目标是从低分辨率(LR)图像重建高分辨率(HR)图像。ISR的挑战在于需要从有限的信息中恢复细节,因此它一直是低级视觉领域的一个持久问题。
-
近年来,深度学习技术在ISR领域取得了显著进展,尤其是基于隐式神经表示(INRs)的方法。INRs通过坐标映射来表示连续信号,能够以较少的参数重建细节,为高维数据表示提供了一种灵活高效的解决方案。
研究动机
-
现有的INR方法通常使用多层感知机(MLPs)进行参数化,但这种方法没有考虑到局部采样点之间的层次结构,限制了表示能力。
-
现有的INR方法大多基于单尺度位置编码,无法充分利用多尺度信息来捕捉图像中的细节。
-
现有的方法在处理长距离依赖关系时存在不足,尤其是在高频细节的捕捉上。
主要贡献
-
提出了一种新的层次化隐式图像函数(HIIF),通过层次化位置编码增强局部隐式表示,能够捕捉多尺度下的细节信息。
-
设计了一种新的多尺度架构,将局部特征与相对坐标级联,并隐式学习聚合输出。
-
引入了多头线性注意力机制,充分利用非局部信息,扩展感受野,捕捉高频细节。
-
实验结果表明,HIIF在多个基准数据集上优于现有的连续超分辨率方法,平均PSNR值提升了0.17dB。
2. 相关工作
图像超分辨率(ISR)
-
ISR的目标是从低分辨率图像生成高分辨率图像,同时保持更好的感知质量和准确恢复空间细节。近年来,基于深度学习的方法取得了显著进展,主要分为以下几类:
-
基于CNN的方法:如EDSR、RDN等。
-
基于Transformer的方法:如SwinIR。
-
基于扩散模型的方法。
-
基于SSM的方法。
-
隐式神经表示(INRs)
-
INRs通过坐标映射来表示连续信号,能够以较少的参数重建细节。近年来,INRs在3D视图合成、对象形状建模、图像/视频表示和压缩等领域取得了显著进展。大多数研究使用MLPs来表示连续域信号,通过映射坐标到目标值(如像素坐标到RGB值)来实现。
任意尺度超分辨率
-
大多数ISR技术专注于固定的上采样因子(如×2、×3、×4),但这些方法缺乏灵活性,通常需要为不同的上采样因子训练不同的模型。近年来,一些学习方法(如MetaSR)被开发出来,以实现任意尺度的超分辨率。LIIF、LTE、CiaoSR和CLIT等方法通过学习局部隐式特征,实现了任意尺度的超分辨率。
3. 方法
上图为HIIF框架示意图,
3.1 问题定义
3.2 总体设计
3.3 编码器
3.4 解码器
4. 实验
4.1 实验设置
数据集
-
使用DIV2K训练数据集进行网络优化,包含800张2K分辨率的图像。评估时使用DIV2K验证集(包含100张图像)和四个常用的测试集:Set5、Set14、BSD100和Urban100。
训练材料
-
从DIV2K训练集中生成48×48的训练块。对于任意尺度下采样,从均匀分布 U(1,4) 中采样随机缩放因子 r1,…,rB,即在尺度内。为了便于训练,使用相同的缩放因子用于高度和宽度,即 rx=ry=r,从原始图像中裁剪出48r×48r的块,并通过双三次调整大小生成对应的48×48的下采样版本。对于真值图像,将它们转换为像素样本(坐标-RGB值对),从每张图像中采样48²个像素样本,以标准化每个批次中的真值形状。
编码器骨干网络
-
集成HIIF方法与三个编码器骨干网络,包括两个基于CNN的模型(EDSR基线和RDN)和一个基于Transformer的编码器(SwinIR),所有这些模型都通过移除其上采样模块进行了修改。
实现细节
-
基于[10, 29],EDSR基线和RDN模型训练了1000个周期,批量大小为16,初始学习率为1e-4,每200个周期应用衰减因子0.5。基于SwinIR的模型训练了1000个周期,但批量大小为32,初始学习率为2e-4,在第500、800、900和950个周期应用衰减因子0.5。训练和测试基于NVIDIA RTX 4090显卡实现。HIIF解码器的超参数包括多尺度网格的级别 L=6,中间通道数 C=256,用于层次化编码的模数因子 S=2,多头注意力块的数量 B=2 和多头数量 N=16。
4.2 基准测试结果
定量结果
-
表1和表2总结了HIIF与现有任意尺度SR方法的定量比较结果,包括MetaSR、LIIF、LTE、CLIT、CiaoSR和SRNO。测试了三种编码器骨干网络在五个测试数据集上,针对从×2到×30的各种上采样因子。结果表明,HIIF在所有尺度因子、编码器骨干网络和五个数据集中的所有测试连续超分辨率方法中均表现出色(与第二佳性能相比,PSNR值最高提升了0.17dB)。图1中的雷达图也展示了这些结果。此外,还直接比较了原始编码器模型及其集成HIIF版本在三个分布内尺度(×2、×3和×4)的性能(图1)。这里,编码器仅模型是单独训练的,而HIIF方法仅优化一个网络,以处理任何上采样尺度的超分辨率任务。
定性结果
-
图4和图6提供了HIIF与其他连续SR方法的视觉比较结果,前者展示了整数尺度的样本帧,后者展示了非整数尺度的样本帧。这里比较了双三次滤波器的输出、HIIF以及三种SoTA模型(LIIF、LTE和SRNO)的结果。结果基于EDSR基线和RDN编码器。可以看出,与基准方法相比,HIIF模型提供了更好的重建结果,且块状或结构伪影更少。此外,图5展示了当HIIF与三种不同编码器集成时,针对×6 ISR任务的定性比较。由于SwinIR模型的稳健重建能力,其提供的图像重建结果优于基于EDSR和RDN的结果。
复杂性分析
-
为了全面研究所提方法的特性,表3报告并比较了基于EDSR基线编码器的不同连续SR方法的复杂性,包括模型大小、推理运行时间和内存使用。可以看出,与MetaSR、LIIF和LTE相比,当与EDSR集成时,HIIF导致总模型大小略有增加,运行速度稍慢,内存使用量更大,而CLIT和CiaoSR的复杂性更高。
4.3 消融研究
为了验证HIIF框架中主要贡献的有效性,进行了消融研究,创建了以下模型变体:
-
(v1-H) 没有层次化编码的HIIF。
-
(v2-MS) 没有多尺度架构的HIIF,即在开始时输入所有层次化编码。
-
(v3-MH) 没有多头线性注意力块的HIIF。