论文略读Feature Modulation Transformer Cross-Refinement of Global Representationvia via HFP for Image SR

论文略读:Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution

动机

大多数研究都优先考虑了变压器块的设计以捕获全局信息,而忽略了纳入高频先验的重要性,而本文认为这些高频先验是有益的。此外,从实验中发现变压器结构更擅长捕捉低频信息,但与卷积网络相比,构建高频表征的能力有限。于是本文结合CNN和Transformer的优点,提出了新的网络结构-特征调制变压器(Feature Modulation Transformer)。

频率影响分析

下图为频率分析:

image-20240521105820934

给定HR图像,使用FFT提取频谱,然后扁平化为序列,按幅度升序排列。序列长度为L,我们定义了一个由跌落比γ确定的阈值,0≤γ≤1,位于γ·L位置对应的数量级上。幅度低于该阈值的频率分量被设为零。在此之后,我们执行逆快速傅里
叶变换(IFFT)以生成频率下降的HR图像,称为XdropHR(γ)。这个过程的公式如下。

image-20240521110041234
之后,我们使用双三次内插法对XdropHR(γ)进行下采样,以获得LR版本的XdropLR(γ)(例如×4下采样)。最后,我们采用基于cnn的和基于变压器的SR模型来生成超分辨对应的XdropSR (γ)。
为了分析CNN和变压器对高频信息的依赖性,我们计算了XdropSR(γ)和XdropHR之间的峰值信噪比(PSNR) P D(γ)。然后我们绘制PSNR下降趋势,以可视化两种结构之间的差异。如图1(a)所示,定义了每个降比的PSNR降比。

image-20240521110137671

其中P(0)为XSR与XHR之间计算的不下降的PSNR。从图中可以看出,变压器模型对高频信息的敏感性降低,对低频信息的捕获能力较强,随着丢弃高频信息比例的增加,变压器模型的PSNR变化比CNN模型小。

此外,我们进行了另一项实验,以评估不同结构在重建高频信息方面的有效性。具体来说,我们计算了XSRdrop(γ)和XHR之间的PSNR pe (γ),并绘制了前面描述的性能下降趋势。每个降比的PSNR降比可表示为

image-20240521110147868

从图1(b)中我们可以看到,随着高频信息被丢弃比例的增加,变压器模型的PSNR比CNN模型变化更大,说明变压器模型从低频重构高频信息的能力有限。
基于这些观察,我们认为变压器需要CNN的帮助来增强其恢复复杂细节的能力。为了解决这个问题,我们提出了一种结合CNN和变压器优点的方法。具体来说,我们引入CNN信息作为高频先验,以帮助变压器精炼全局表示

方法

模型结构

image-20240521105559495

浅层特征提取、残差交叉细化融合组(rcrfg)和重建。

概述:

浅层特征提取模块由单个卷积层组成,重建模块后面是SwinIR[21]。RCRFG组件由多个交叉细化融合块(crfb)组成,每个融合块由三种类型的块组成:高频增强残差块(hferb)、移位矩形窗口注意块(SRWABs)和混合融合块(HFBs)。

输入LR图像经过3×3卷积层处理,获得浅层特征。然后将这些特征输入到一系列rcrfg中以学习深度特征。在最后一次RCRFG之后,一个3 ×3卷积层对特征进行聚合,并在其输出与浅层特征之间建立残差连接,便于训练。重建模块采用3 ×3卷积层对特征进行聚合,shuffle层[33]用于获得最终的SR输出图像。

image-20240521112238986

image-20240521112215625

高频增强残差块(High-frequency Enhancement Residual Block)

image-20240521112155332

HFERB旨在增强高频信息,如图2所示。它包括局部特征提取(LFE)分支和高频增强(HFE)分支。

(1)、分割通道

image-20240521110636990

(2)、提取局部高频特征

image-20240521110727850

(3)、增强高频特征

image-20240521110738014

(4)、信息融合

1x1 卷积

(5)、残差连接

为了使网络从多尺度信息中获益并保持训练稳定性,引入了跳跃式连接。整个过程可以表示为

image-20240521110903533

矩形移位窗口注意力块(Shift Rectangle Window Attention Block)

image-20240521112145094

image-20240521111017220

input:

image-20240521111044764

SRWAB:

image-20240521111122928

image-20240521111135409

其中d取d = C/M , M is the number of heads。

B是动态相对位置偏置。

引入卷积,增强局部提取能力。

改进:

1、为了从不同的轴上捕获信息,我们利用了两种类型的直角窗:水平窗和垂直窗。

2、与利用注意力遮罩将计算限制在同一窗口的传统操作不同,在实践中,我们消除了mask attention,实现了跨不同窗口的更广泛的信息交互。

image-20240521111400702

其中W^p是融合特征的线性投影,V -Rwin和H-Rwin表示垂直和水平矩形窗口注意力。

混合融合块(Hybrid Fusion Block)

image-20240521112133933

为了更好地整合CNN和变压器(HFERB和SRWAB)的优点。

将HFERB的输出作为高频先验查询,SRWAB的输出作为关键字,对SRWAB得到的全局特征进行赋值和计算,以细化得到的全局特征。

此外,大多数现有方法都侧重于空间关系,而忽略了信道信息。为了克服这一限制,我们基于渠道维度执行互注意来探索渠道依赖关系。这种设计将显著降低复杂性。利用空间注意力的传统方法往往会导致显著的计算复杂度(例如,O(N ^2C), NC),其中N表示序列的长度,C表示通道维度。相比之下,我们的通道注意力设计可以将二次分量转移到通道维度(例如,O(NC^2)),有效地降低了复杂性。

inter-attention:

image-20240521111757220

其中α表示可学习参数。

添加细化特征Xs,得到融合输出Xfuse

使用MLP聚合特征:(类似SUNet中的双线性映射)

image-20240521112048926

QA

高频先验?先验知识?

Transformer更适合捕获低频,与cnn相比高频表征的能力有限。

快速傅里叶变换获得频谱。

双三次内插法?用于构建LR图像。

信噪比?

融合特征的线性投影?

  • 25
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
根据引用\[1\],作者在入职后花了半个月的时间略读了《802.11无线网络》,现在打算进行精读,并做好笔记。作者表示此前读过的一些章节会迅速过掉,这次的重点是关注连接和验证的细节,而对于安全相关的内容不做精读。作者希望在精读过程中能够有特殊的感悟。 根据引用\[2\],802.11i是一项对安全性进行了大幅改善的协议,其中引入了强健安全网络(Robust Security Network)。为了让工作站之间能够交换安全性信息,开发了Extended Supported Rates和Wi-Fi Protected Access。 根据引用\[3\],在802.11协议中,广播和组播帧无需响应,而成帧和寻址较为复杂。组播帧无需分段,也无需得到确认,而单播帧则需要进行基本的肯定确认(最后一个片段)。帧分段是协议中的一个重要概念。 综上所述,802.11协议的精读将涉及连接和验证的细节,以及强健安全网络和Wi-Fi Protected Access的相关内容。同时,了解帧分段和成帧与寻址的复杂性也是重要的。 #### 引用[.reference_title] - *1* *2* [802.11协议精读(二)](https://blog.csdn.net/AngryDog1024/article/details/117464088)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [802.11协议精读(一)](https://blog.csdn.net/AngryDog1024/article/details/117464068)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

看不见的罗辑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值