图像超分辨率新突破！香港理工大学推出HAAT模型

最新推荐文章于 2025-06-10 22:26:10 发布

Python_金钱豹

最新推荐文章于 2025-06-10 22:26:10 发布

阅读量1.3k

点赞数 25

文章标签：深度学习人工智能机器学习 llama ocr

本文链接：https://blog.csdn.net/Python_cocola/article/details/144300350

版权

引言

单图像超分辨率（Single Image Super-Resolution，SISR）旨在从低分辨率图像重建出高质量的图像。随着计算机视觉技术的发展，如何有效提升图像超分辨率算法的性能成为了一个重要的研究方向。近年来，研究人员将自注意力机制引入到计算机视觉领域，并取得了显著的效果。

问题背景及相关工作

CNN技术在单图像超分辨率（SISR）中取得了显著进展，SRCNN作为第一个使用卷积神经网络处理超分辨率的模型，引领了这一领域的发展。后续的VDSR通过残差学习解决了深层网络中的梯度消失问题，而SRGAN则通过生成对抗网络进一步提升了超分辨率图像的质量。ESRGAN引入了残差密集块（RRDB），有效减少了感知损失，生成了更真实的图像纹理。

然而，CNN固有的归纳偏差限制了其捕捉长距离关系的能力。为了解决这一问题，研究人员开始利用自注意力机制在多尺度处理和长距离依赖建模中的优势，开发了基于Transformer的SISR模型，例如SwinIR和HAT等。

Figure 1. SDRCB Framework.

研究目标

本文提出了一种新的混合多轴聚合网络，称为HAAT，以解决现有方法在自注意力计算中的局限性。通过结合Swin-Dense-Residual-Connected Blocks（SDRCB）和Hybrid Grid Attention Blocks（HGAB），HAAT旨在更好地利用特征信息，提高图像重建效果。

核心设计

1. Swin-Dense-Residual-Connected Block（SDRCB）：该模块结合了Swin Transformer层和转换层，扩展了接受域，同时保持了简化的设计，从而提高了性能。

2. Hybrid Grid Attention Block（HGAB）：HGAB由混合注意力层（MAL）和多层感知器（MLP）层组成，结合了通道注意力、稀疏注意力和窗口注意力，增强了全局特征交互，控制了计算复杂度，提升了图像重建效果。

Figure 2. HGAB Structure.

主要创新点

1. 混合注意力机制：通过结合通道注意力、稀疏注意力和窗口注意力，HGAB能够更好地捕捉全局特征，提高图像重建效果。

2. 简化的架构设计：SDRCB通过结合Swin Transformer层和转换层，在扩展接受域的同时保持了简化的设计，提高了性能。

模型细节设计

SDRCB结合了Swin Transformer层和转换层，利用自适应接受域捕捉长距离依赖。其具体计算过程如下：

Z = H_trans(STL([Z,...Z_{j-1}]), j = 1,2,3,4,5,
SDRCB(Z) = alpha * Z + Z_5,
其中，[·]表示前几层生成的多层特征图的拼接。H_trans(·)指的是带有LeakyReLU激活函数的卷积层，用于特征转换。负斜率设为0.2。Conv1是1×1卷积层，用于自适应融合不同层次的特征。alpha表示残差缩放因子，设为0.2以稳定训练过程。

HGAB结构如下：

X_W1 = W-MSA(F_W1),
X_W2 = SW-MSA(F_W2),
X_G = Grid-MSA(F_G),
X_C = CA(F_in),
X_MAL = LN(Cat(X_W1,X_W2,X_G)+X_C)+F_in,
F_M = LN(MAL(F_in))+F_in,
F_M = LN(MAL(F_M))+F_M,
其中，W-MSA、SW-MSA和Grid-MSA分别表示窗口多头自注意力、移位窗口多头自注意力和网格多头自注意力，CA表示通道注意力，LN表示层归一化，Cat表示特征拼接。

实验结果

本文的HAAT模型在DF2K数据集上进行了训练，这个数据集包括了DIV2K和Flickr2K。DIV2K提供了800张训练图像，而Flickr2K贡献了2650张图像。对于训练输入，本文通过使用缩放因子为2、3和4的双三次下采样方法生成了这些图像的低分辨率版本。为了评估模型的效果，本文使用了著名的SISR基准数据集，如Set5和Set14。

在DRCT架构中，深度和宽度配置与HAT相同。具体来说，这两个模型都有6个RDG和SDRCB单元，中间特征图的通道数为180。对于基于窗口的多头自注意力（W-MSA），注意力头数设置为6，窗口大小为16。在HGAB块中，通道压缩因子为16，中间特征的通道数为180。Grid MSA和（S）W-MSA分别使用3和2个注意力头。高分辨率图像块为256×256像素，从HR图像中提取，并进行随机水平翻转和旋转进行数据增强。

如表1所示，本文的方法在PSNR和SSIM方面优于最先进的技术。

*表格超出部分左右可以滑动

方法	缩放比例	训练数据集	Set5 PSNR	Set5 SSIM	Set14 PSNR	Set14 SSIM
EDSR	×2	DIV2K	38.11	0.9602	33.92	0.9195
RCAN	×2	DIV2K	38.27	0.9614	34.12	0.9216
SAN	×2	DIV2K	38.31	0.9620	34.07	0.9213
IGNN	×2	DIV2K	38.24	0.9613	34.07	0.9217
HAN	×2	DIV2K	38.27	0.9614	34.16	0.9217
NLSN	×2	DIV2K	38.34	0.9618	34.08	0.9231
SwinIR	×2	DIFK	38.42	0.9623	34.46	0.9250
CAT-A	×2	DIFK	38.51	0.9626	34.78	0.9265
HAT	×2	DIFK	38.63	0.9630	34.86	0.9274
DAT	×2	DIFK	38.58	0.9629	34.81	0.9272
DRCT	×2	DIFK	38.72	0.9646	34.96	0.9287
HAAT (Ours)	×2	DIFK	38.74	0.9645	34.97	0.9287

总结与未来展望

本文介绍了一种用于单图像超分辨率的独特的混合注意力聚合变换器（HAAT）。HAAT通过在残差块中加入密集连接，结合滑动窗口注意力机制，以自适应获取全局信息，增强了模型对全局几何信息的关注，优化了其能力，避免了信息瓶颈。此外，受到图像中层次结构相似性的启发，本文提供了HGAB来表示长距离关系。通过整合通道注意力、稀疏注意力和窗口注意力，这种网络提高了多层次结构相似性。实验结果表明，本文的方法在单图像超分辨率任务的基准数据集上优于SOTA技术。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述