CFAT模型-文献阅读

目月眀

于 2024-07-31 07:32:16 发布

阅读量502

点赞数 12

文章标签：计算机视觉

本文链接：https://blog.csdn.net/2303_79645536/article/details/140804641

版权

2、混合注意力块（D-HWAB、S-HWAB）

一.介绍

超分辨率（Super-Resolution）能将低分辨率的图像转化为高分辨率，如常见的图像放大。目前深度学习模型为最常见的手段。2024年，CFAT模型面世，在某些数据集上超越了其他主流模型，如Real-ESRGAN、Swin T等，于是我们来介绍CFAT模型

CFAT论文地址：[2403.16143] CFAT: Unleashing TriangularWindows for Image Super-resolution (arxiv.org)https://arxiv.org/abs/2403.16143

代码地址：GitHub - rayabhisek123/CFAT: [CVPR 2024] "CFAT: Unleashing Triangular Windows for Image Super-resolution"https://github.com/rayabhisek123/CFAT

二、创新点

为克服重叠矩形位移窗口技术在边界处受到失真的影响的弱点，其提出一种非重叠三角形窗口技术，与矩形窗口同步工作，以减轻边界级失真，并允许模型获得更独特的筛选模式。其在图像超分辨率中融合了基于三角形窗口的局部注意力和基于通道的全局注意力技术，与矩形窗口同步工作，从而使注意力机制能够在更多的图像像素上被激活，并捕获长程、多尺度特征，以提高超分辨性能。

三、整体结构

整个网络可以分为头、体、尾三个段。头部模块负责浅层特征提取，身体模块提取深层特征，尾部模块在输出阶段从LR对应的HR图像重建HR图像。头是一个简单的3 × 3卷积层，体段是将密集窗口注意力块(DWAB)和稀疏窗口注意力块(SWAB)交错连接并与卷积层形成深度提取器模块，尾段是夹在一对卷积层之间的上采样层。

1、窗口注意力块（DWAB、SWAB）

该设计融合了多个非重叠的注意力单元，称为密集混合窗口注意力块(D-HWAB)，最初用于获取深度特征，并在最后放置一个重叠的注意力单元，称为重叠交叉融合注意力块(OCFAB)，以获得多样化的特征。

2、混合注意力块（D-HWAB、S-HWAB）

该模块将两个transformer单元中的通道Wise attention Block (CWAB)的通道注意力特征与RW-MSA和TW-MSA的空间注意力特征相结合，从而提高整体性能。

3、重叠交叉融合注意块（OCFAB）

该块将相邻窗口的功能重叠，并在它们之间建立交叉注意力，以进一步提高性能。

4、通道注意力块（CWAB）

通过一个SE块后，然后将GELU激活函数夹在深度逐点卷积层，然后才是通道注意力层。

四、三角形窗口

在计算机视觉中，像素的属性也依赖于自身及其邻居。由于矩形窗口的等距几何结构，当重复发生时，移动矩形窗口是有限制的。由于覆盖范围更广，三角形窗口比矩形窗口允许更多的非相同位移,如论文中原图所示。由于矩形和三角形窗口块之间存在结构异质性，因此在DWAB或SWAB内部参与三角形和矩形自注意力交替连接的空间特征是不同的。三角形窗口中更独特的移动模式的可用性，通过减轻边界上与边缘相关的伪影，对齐有助于提高定位精度的特征，并对非中心化的图像模式提供更大的适应性，进一步提高了模型的性能。许多研究证实，移位的矩形窗口与非移位的矩形窗口相结合，可以大大提高超分辨率性能

因此，将基于矩形窗口的MSA与提出的三角形窗口MSA串联起来的替代配置减轻了彼此的边缘级失真。