IG-CFAT模型-文献阅读

一、介绍

超分辨率(Super-Resolution)能将低分辨率的图像转化为高分辨率,如常见的图像放大。目前深度学习模型为最常见的手段。我们在之前介绍了CFAT模型,这次我们介绍将CFAT迁移至GAN的IG-CFAT模型。

之前CFAT的介绍在这:

CFAT模型-文献阅读-CSDN博客

IG-CFAT模型论文:[2406.13815] IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution (arxiv.org)icon-default.png?t=N7T8https://arxiv.org/abs/2406.13815 G-CFAT模型代码:

alireza-aghelan/IG-CFAT: IG-CFAT: An Improved GAN-Based Framework for Effectively Exploiting Transformers in Real-World Image Super-Resolution (github.com)icon-default.png?t=N7T8https://github.com/alireza-aghelan/IG-CFAT

二、创新点

本文将CFAT模型扩展为一种改进的基于gan的模型IG-CFAT,以有效利用transformer在现实世界图像超分辨率中的性能。IG-CFAT包含了一个语义感知鉴别器,以更准确地重建图像细节,显著提高感知质量。此外,该模型利用自适应退化模型来更好地模拟现实世界的退化。该方法将小波损失添加到基于gan的超分辨率模型的传统损失函数中,以更有效地重建高频细节。

三、整体结构

1.退化模型

大多数经典的退化模型主要模拟通过模糊、下采样、噪声和JPEG压缩引起的图像退化。在许多情况下,这些模型不能完全模拟现实世界中面对的复杂退化图像,这导致了在现实世界应用中的性能欠佳。为了解决经典退化模型的这一弱点,开发了现实世界的退化模型。例如,BSRGAN使用了一个复杂的退化模型,包括随机洗牌模糊、下采样和噪声退化。这是第一个有效处理异构、真实环境退化的退化模型。同样,Real-ESRGAN采用了高阶退化建模过程,更准确地表示复杂的现实世界退化。包括常见的工件,如振铃和超调,在更简单的模型中经常被忽视。通过对这些方面的改进,Real-ESRGAN将使超分辨率过程更加鲁棒和有效,从而更适合用于图像恢复。此外,DASR模型引入了一种创新的退化自适应超分辨率网络,根据每幅输入图像的退化估计动态调整其参数。这样的形式

DASR的自适应性使其能够有效地处理具有不同程度退化的图像,这使得它在现实世界的应用中非常高效和有效,在这些应用中,退化模式可能从一个图像到另一个图像。为提高模型处理现实世界退化的有效性,纳入了一个受DASR和StarSRGAN启发的自适应退化模型。

最近基于gan的模型大多采用Real-ESRGAN的高阶退化模型。该模型旨在通过应用预定义的下采样、模糊、噪声和JPEG压缩序列来模拟真实世界的图像退化。该方法是有效的,但将退化序列统一应用于所有图像,限制了模型适应现实场景中常见的不可预测退化模式的能力。为了克服这个问题,IG-CFAT使用自适应退化模型。与高阶退化模型相比,该退化模型具有显著的优点。高阶退化模型可能无法捕捉现实世界中大范围的退化模式,而自适应退化模型则更加实用和平衡。该模型将退化空间划分为三个层次——D1、D2和D3,以模拟从细微到严重的各种退化场景。水平D1和D2分别是一阶退化,参数范围小,参数范围大。D3水平是二阶退化。为了获得更均衡的性能,选择退化级别的概率分布是[0.3,0.3,0.4]。这种自适应退化模型使IG-CFAT模型能够在不同的退化场景中更好地泛化,从而提高性能。

2.判别器

最近,一些工作集中在改进基于gan模型的鉴别器网络以实现超分辨率。在本节中,我们讨论一些极具影响力的改进,这些改进极大地增强了鉴别器的性能。在ESRGAN模型中,使用相对论鉴别器来评估图像的相对真实感。这允许在参考图像和生成图像之间进行更细微的比较,从而改善了超分辨率输出中的纹理细节和真实感Real-ESRGAN采用基于u - net的鉴别器,该鉴别器集成了光谱归一化,在增强局部纹理反馈的同时保持全局风格评估。谱归一化稳定训练和减少伪影,允许细节增强和伪影抑制之间的微妙平衡。AESRGAN使用基于多尺度注意力u - net的鉴别器。注意力机制允许清晰地聚焦于基本特征,如边缘,从而在减少失真的情况下获得更清晰、更清晰的图像细节。此外,多尺度策略更显著地增强了重建精细纹理和边缘细节的能力。在IG-CFAT模型中,利用了语义感知判别器(SeD),大大超过了之前的方法

传统的基于gan的图像超分辨率模型中的鉴别器主要通过测量生成图像与参考图像之间的分布距离来评估超分辨率图像的一般真实性。这种方法是有效的

然而,区分真假图像主要是在粗粒度上评估纹理和细节。大多数这类判别器忽略了图像的语义。这种方法可能会得到高分辨率的图像,但却错过了原始场景的真实本质和上下文;它可能导致输出没有真实的纹理和准确的细节。为了克服这些限制,模型采用了语义感知判别器(SeD)。与以往模型不同的是,SeD将图像的语义作为条件;因此,它可以对纹理和细节进行细粒度分析。这是通过从广泛使用的预训练视觉模型(PVMs)的中间特征中提取语义信息来实现的。通过这种方式,鉴别器评估纹理的真实性并尊重图像的语义完整性,从而产生更精确和上下文感知的纹理生成。在[8]中,作者将SeD合并到两个流行的鉴别器中,包括基于块的鉴别器和基于像素的鉴别器。本文利用与U- net架构(SeD + U)集成的像素级语义感知鉴别器,SeD通过利用图像语义来提高纹理真实感,产生更逼真、更令人愉悦的超分辨率图像。这些改进使SeD成为IG-CFAT模型中的一个关键组成部分,大大有助于在现实世界的图像超分辨率任务中取得更好的性能。

3.生成器

生成器的架构与原始CFAT模型相同。以前基于transformer的模型依赖于重叠的矩形移动窗口,往往受到边界失真和有限的独特移动模式的影响。要解决这个问题

CFAT采用了一种新的非重叠三角形窗口技术,可以与矩形窗口同时工作。该方法可以减少边界处的失真,并使其在转换模式中具有更多的多样性。此外,CFAT将基于三角形矩形窗口的局部注意力与基于通道的全局注意力技术相结合,以进一步提高性能。因此,CFAT结构更有效地利用了transformer的能力。因此,它是作为生成器使用的理想选择。

CFAT模型具有复杂的架构,包括密集窗口注意力块(DWAB)和稀疏窗口注意力块(SWAB)。这些块利用矩形和三角形窗口注意力单元进行详细的特征提取。重叠交叉融合注意力块(OCFAB)使用滑动窗口技术,通过重叠相邻窗口的特征并在它们之间建立交叉注意力来提高性能。此外,通道注意力块(CWAB)利用深度逐点卷积来减少挤压因子并提高性能

4.损失函数

在大多数基于GAN的超分辨率模型中,典型的策略包括使用L1损失、感知损失和GAN损失的组合。L1损失最小化预测和真实像素值之间的平均绝对差,以增加整体保真度。此外,感知损失通过对齐从预训练网络中提取的特征来鼓励感知相关的特征。GAN损失有助于生成与真实图像不可区分的图像,并提高纹理真实感。

为了进一步捕捉对视觉愉悦的结果至关重要的高频细节,通过集成小波损失扩展了基于gan模型的损失函数。首先将图像从RGB颜色空间转换到YCbCr颜色空间;然后,利用平稳小波变换(SWT)将Y通道分解为其频率子带;SWT将图像的Y通道分解为一个低频(LF)子带LL和多个高频(HF)子带LH、HL和HH 

小波损失与传统的L1损失、感知损失和GAN损失相结合,以确定模型的总损失。小波损失的合并提供了多种优势。首先,增强模型对高频细节的重建能力;其次,该方法改善了峰值信噪比(PSNR)等量化指标,提高了图像的感知质量,解决了像素级损失的一些常见缺点

四、效果

 

由此可见,IG-CFAT的效果非常好。

希望对你有所帮助 

  • 25
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值