【CVPR 2025】局部区域自注意力LASA,用重叠补丁增强区域特征交互,即插即用!

 一、论文信息 

论文题目:ATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

中文题目:CATANet:轻量级图像超分辨率的高效内容感知标记聚合

论文链接:https://arxiv.org/pdf/2503.06896

官方github:https://github.com/EquationWalker/CATANet/tree/main

所属机构:南京大学软件新技术国家重点实验室

核心速览:本文提出了一种名为CATANet的轻量级图像超分辨率网络,该网络通过内容感知的标记聚合模块有效捕获长距离依赖关系,同时保持高效的推理速度。

二、论文概要 

Highlight

图片

图1. 在Urban100数据集上,放大因子×2的性能与模型复杂度比较。

图片

图6. CATANet与其他先进轻量级超分辨率方法的视觉比较。各项指标(PSNR/SSIM)是在每个贴片上计算的。最佳和次佳结果分别用红色和蓝色标记。

1. 研究背景:

  • 研究问题:图像超分辨率(SR)旨在从低分辨率(LR)图像中恢复出高分辨率(HR)图像。这一任务在计算机视觉和图像处理领域具有重要意义,广泛应用于医疗成像、数字摄影和流媒体传输等领域。然而,现有的基于卷积神经网络(CNN)的方法在捕捉全局依赖性方面存在局限性,导致需要非常深和复杂的网络结构来提高性能,这增加了计算资源的消耗,限制了它们的应用范围。

  • 研究难点:尽管基于Transformer的方法在捕捉长距离依赖关系方面表现出色,但其计算复杂度随着空间分辨率的提高而呈二次方增长。为了解决这一问题,一些研究尝试将低分辨率图像划分为局部窗口、轴向条纹或扩张窗口进行处理。然而,这些方法仅限于在内容无关的局部区域进行注意力计算,限制了注意力捕捉长距离依赖的能力。此外,基于聚类的方法如SPIN虽然在长距离信息传播方面取得了一定效果,但其稀疏的图像标记表示和在推理阶段对聚类中心的迭代处理限制了其推理速度。

  • 文献综述:文章提到了基于深度学习的SR方法,如SRCNN首次成功将CNN应用于SR领域,以及后续使用残差连接和U型架构的CNN方法。此外,还提到了引入注意力机制的SR方法,例如RACN、CSFM和DAT,它们利用通道注意力或空间和通道注意力的结合。最近,基于Transformer的方法如SwinIR刷新了SR领域的最新成果,展示了Transformer强大的表示学习能力。

2. 本文贡献:

  • 内容感知标记聚合网络(CATANet):提出了一种轻量级图像超分辨率网络CATANet,该网络通过内容感知标记聚合模块(CATA)聚合长距离内容相似的标记,共享图像标记的中心,并在训练阶段更新这些中心。此外,利用组内自注意力(Intra-Group Self-Attention)实现长距离信息交互,以及设计组间交叉注意力(Inter-Group Cross-Attention)进一步增强全局信息交互。

  • 高效内容感知标记聚合模块(CATA):CATA模块通过平均池化获得初始标记中心,并在训练阶段使用指数移动平均(EMA)更新这些中心。图像标记被划分为基于标记中心相似性的内容相似标记组,以实现更精确的标记分组。

  • 局部区域自注意力(LRSA):通过使用重叠的补丁来增强局部区域特征之间的交互。

 三、创新方法 

图片

图 2. CATANet 的整体架构。

图片

图2(c). 局部区域自注意力。

网络架构:CATANet网络由浅层特征提取、深层特征提取和图像重建三个模块组成。浅层特征提取通过3×3卷积层实现,深层特征提取通过顺序残差组(RG)实现,每个RG包括标记聚合块(TAB)、局部区域自注意力(LRSA)和3×3卷积。图像重建模块通过上采样操作和图像重建函数获得最终的高分辨率图像。

Local-Region Self-Attention (LRSA): 使用重叠的补丁来增强特征交互,LRSA模块负责学习更精细的局部细节。给定输入特征 Xo ∈ RN ×d,LRSA模块通过以下过程进行特征交互:

图片

1. 使用重叠补丁来增强特征交互:这意味着输入特征被划分为重叠的区域,每个区域都用于计算自注意力。

2. 对于每个重叠的补丁,使用多头自注意力(Multi-Head Self-Attention, MSA)机制来学习补丁内的长距离依赖关系。这一步骤可以表示为:

图片

其中 Xout 属于 RN×d,WQ,WK 和 WV 是在各个块之间共享的权重矩阵。通过这种方式,LRSA模块能够捕捉到局部区域内的长距离依赖关系,从而增强模型对局部细节的处理能力。

四、实验分析 

 

1. 数据集:使用DIV2K数据集进行模型训练,并在Set5、Set14、B100、Urban100和Manga109五个公共超分辨率数据集上评估模型性能。使用PSNR和SSIM指标评估模型性能,并将这些指标转换到YCbCr颜色空间后在Y通道上计算。

2. 性能比较:CATANet在不同放大因子(×2、×3、×4)的基准数据集上均取得了优于其他轻量级SR模型的性能。特别是在×2放大因子下,CATANet在参数更少的情况下,PSNR值比SPIN方法高出0.33dB,且推理速度几乎快两倍

3. 消融研究:通过消融研究评估了IASA和IRCA模块的有效性,以及不同TAB设计的影响。实验结果表明,IASA和IRCA模块对于恢复受损图像的长距离依赖捕捉至关重要,而CATANet的TAB设计在性能上优于其他标记聚合方法。

图片

图片

图片

https://github.com/AIFengheshu/Plug-play-modules

2025年全网最全即插即用模块,免费分享!包含人工智能全领域(机器学习、深度学习等),适用于图像分类、目标检测、实例分割、语义分割、全景分割、姿态识别、医学图像分割、视频目标分割、图像抠图、图像编辑、单目标跟踪、多目标跟踪、行人重识别、RGBT、图像去噪、去雨、去雾、去阴影、去模糊、超分辨率、去反光、去摩尔纹、图像恢复、图像修复、高光谱图像恢复、图像融合、图像上色、高动态范围成像、视频与图像压缩、3D点云、3D目标检测、3D语义分割、3D姿态识别等各类计算机视觉和图像处理任务,以及自然语言处理、大语言模型、多模态等其他各类人工智能相关任务。持续更新中......

 

参考资源链接:[DLIS文件格式详解与解析](https://wenku.csdn.net/doc/sfpoar7xu1?utm_source=wenku_answer2doc_content) DLIS文件格式中,逻辑记录和可视记录各自承担着不同的角色。逻辑记录是数据的组织形式,它包含了数据的元信息和实际的数据内容,适用于机器处理。而可视记录则提供了数据的图形化表示,便于用户直观理解。为了深入理解这两种记录的差异和解析方法,推荐阅读《DLIS文件格式详解与解析》一书。 逻辑记录通常由LRSH(逻辑记录段头)和LRSA(逻辑记录段体)组成。LRSH定义了记录的类型、长度和指向其他记录的指针,LRSA则包含了数据和对应的元数据。在程序中定义逻辑记录,我们可以使用类似C语言的结构体定义,例如: ```c typedef struct { unsigned int length; unsigned int prev; unsigned int next; // 其他元信息字段 } struct_LRSH; typedef struct { struct_LRSH lrsh; char data[0]; // 用于动态存储实际数据 } struct_LRSA; ``` 解析逻辑记录时,通常需要读取LRSH来获取数据长度和类型信息,然后根据长度读取LRSA中的数据。针对可视记录的定义和解析,其结构可能类似于: ```c typedef struct { // 可视记录特有的元信息字段 } struct可视记录; ``` 可视记录的解析可能涉及图像处理技术,将数据转换为图形或图像格式。这通常需要使用专门的库来处理,例如在图像处理库中定义可视记录的数据结构,然后使用图形库函数进行渲染。 总的来说,DLIS文件格式允许在逻辑记录和可视记录之间进行灵活转换,使得程序既能够处理复杂的数据结构,也能够提供直观的数据视图。通过上述编程示例,我们可以看到如何在程序中定义和解析这两种记录,这有助于开发者根据实际需求处理DLIS文件中的数据。想要进一步了解和掌握这些技巧,建议深入阅读《DLIS文件格式详解与解析》,该书详细阐述了DLIS文件的结构和解析方法,是处理此类问题的宝贵资源。 参考资源链接:[DLIS文件格式详解与解析](https://wenku.csdn.net/doc/sfpoar7xu1?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI缝合术

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值