TTST: 一种用于遥感图像超分辨率的Top-k标记选择变换器

阅读笔记:A Top-k Token Selective Transformer for Remote Sensing Image Super-Resolution

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 33, 2024

Abstract-

基于Transformer的图像超分辨率融合算法具有全局和大范围的融合能力,在图像超分辨率处理中表现出了良好的性能。然而,现有的Transformer算法在大面积对地观测场景中的应用存在两个关键问题:(1)由于存在大量不相关特征点,导致特征点表示存在冗余;(2)单一尺度表示忽略了相似观测目标的尺度相关建模。为此,文中提出了一种自适应地消除不相关标记的干扰,使自注意计算更加紧凑的方法.具体地说,我们设计了一个剩余标记选择组(RTSG),通过动态地选择前k个关键字来获取最关键的标记。为了更好地进行特征融合,提出了一种多尺度前馈层(MFL),用于在前馈过程中生成多尺度混合特征的丰富表示。此外,我们也提出一个整体情境注意(Global Context Attention,GCA),以充分发掘最具信息性的成分,进而将更多的归纳偏差引入RTSG,以达到精确重建的目的。特别地,多个级联的RTSG形成我们的最终的Top-k令牌选择性Transformer(TTST)以实现渐进表示。在模拟和真实遥感数据集上的大量实验表明,该方法在定性和定量上均优于基于CNN和基于Transformer的方法。简单地说,TTST在PSNR方面比现有方法(HAT-L)平均高出0.14dB,但仅占其计算成本和参数的47.26%和46.97%。代码和预先培训的TTST将在https://github.com/XYboy/TTST上提供以供验证。

Introduction

相似地面观测目标存在尺度差异,单尺度表示方法难以挖掘潜在的尺度相关性,导致重建结果中存在伪影。此外,由于成像范围大,相关学习存在明显的冗余内容,特别是Transformer的令牌表示。以往的基于变换器的SR方法完全忽略了这一点,这使得它们在遥感SR任务中的直接重用更具挑战性。

为此,在这项研究中提出了一种新的Top-k令牌选择性Transformer(TTST),以减轻上述问题。具体地,TTST选择通过仅选择前k个最高关注值(即,相似性评分)来应用信道选择。这使得TTST能够在整个HSR图像上捕获最相关的分量,同时相对于明确的空间选择保持适度的复杂性。从本质上讲,可学习掩码是查询密钥对的稀疏表示,这与信息令牌稀疏分布在遥感图像上的事实相一致。同时,为了更好地保存多尺度信息,提出了多尺度前馈层(MFL),以挖掘相似对象之间潜在的尺度关系,丰富多尺度特征之间的交互。此外,基于观察到大范围区域中存在有价值的先验知识,我们设计了全局上下文注意力(GCA)模块来动态调整CNN的大的相应字段,从而为TTST引入更多的归纳偏差以更好地重建。

1) A Top-k Token Selective Transformer (TTST) is proposed for remote sensing image super-resolution, considering the scale diversity and redundant token representation in challenging remote sensing scenarios.

2) To eliminate the interference of irrelevant tokens, TTST adaptively selects the most critical tokens based on the top-k selective mechanism, making the long-range modeling more effective and compact.

3) To explore the latent scale relations, a Multi-scale Feedforward Layer (MFL) is devised, which helps to aggregate more multi-scale cues into the global representation.

1)考虑到具有挑战性的遥感场景中的尺度多样性和冗余token表示,提出了Top-k令牌选择性变换器(TTST)用于遥感图像超分辨率。Transformer。

2)为了消除不相关令牌的干扰,TTST基于top-k选择机制自适应地选择最关键的tokens,使得远程建模更加有效和紧凑

3)为了探索潜在的尺度关系,设计了多尺度前馈层(MFL),这有助于将更多的多尺度线索聚合到全局表示中

A. Overview of TTST

如图3所示,我们的TTST由三个主要组件组成:1)特征提取,其从具有全局上下文注意(GCA)的ILR中提取全局上下文特征; 2)剩余令牌选择组(RTSG),其中每个RSTG包含Top-k令牌选择注意(TTSA)、基于普通窗口的自注意(WSA)、多尺度前馈层(MFL)和可选的GCA模块; 3)重建部分,旨在恢复超分辨率图像ISR。这些组件的详细信息如下所述。

B. Top-k Token Selective Group

1) Top-k Token Selective Attention:
形式上,给定查询Q、键K和具有d×H×W形状的值V,可以通过Q和跨通道转置的K之间的点积运算来生成稠密注意力矩阵M ∈ Rd×d。与计算具有HW × HW形状的空间方向矩阵不同,通道方向相似性测量有助于减少内存消耗以进行有效推理。接着,采用自适应选择策略来屏蔽掉不相关的元素(即,较低的注意力值)。如图3所示,k被动态地设置为一系列值。使用k1 = 12作为示例,只有具有前50%分数的元素可以被保留用于激活,而剩余的50%元素被屏蔽为0。同样,当k4 = 4 5时,稀疏率为20%。与固定k在探索稀疏性的潜在大小方面缺乏灵活性不同,所提出的动态选择通过将k设置为多个值来允许从稀疏到密集的选择过程。具体来说,我们生成一个二进制掩码矩阵来实现这个部分运算符:

2) Window-Based Self-Attention:

WSA能够捕获长期依赖关系,这已经成为大多数现有模型中的经验操作[11],[27]。在这里,我们遵循[27]中的标准WSA来生成长程表示V <$w。最后,我们通过逐元素加法聚合TTSA和WAS的输出,即,X =<$Vw +<$Vi。这种集成确保了我们的模型既受益于WSA捕获的长距离依赖关系,又受益于TTSA增强的局部性。

C. Multi-Scale Feed-Forward Layer

然而,由于受到单尺度设计的限制,它们都忽略了对遥感图像多尺度特性的探索。事实上,提高多尺度对象的表示已经充分证明了其在更好的遥感图像超分辨率方面的有效性[61]。因此,我们设计了一个高效而有效的多尺度前馈层,以生成丰富的功能集

D. Global Context Attention

1) Kernel Decomposition:

正如在引言中所讨论的,大规模遥感场景通常表现出显著的冗余(例如,自相似性),其可以被视为用于恢复的有价值的先验知识。此外,这些全球背景在规模上可能各不相同。因此,我们提出从不同的大的各自领域产生多个全局上下文特征,并执行自适应选择,以探索最有用的上下文。为了实现这一目标,我们将一个大规模的核分解成一个具有不同核的逐深度卷积(DW-Conv)序列。这种分解明确地允许我们在考虑尺度变化的情况下获得一系列全局特征。

大内核分解图。传统的11×11深度方向卷积(DW-Conv)可以分解为两个有效的运算:一个3×3的DW-Conv和一个5×5的DW-Conv,其膨胀率为2。这里,k表示内核大小,d是膨胀率。

我们的内核分解策略有两个优。(1)与简单地应用单个较大内核卷积相比,它允许我们使用卷积与相应的大字段提取全局先验知识,同时保持轻量级架构。(2)核序列显式地产生了多个全局表示产出,这使得我们更容易探索多尺度先验知识并进行后续的选择性注意。如图6所示,

在核分解策略的帮助下,与标准的小核卷积相比,我们的TTST显著地扩大了相应的场,并激活了更多的像素用于超分辨率恢复。

2) Context Selective Attention:

为了掌握来自具有不同大空间场的候选者的全局上下文的不同贡献,我们引入了通道式选择性注意机制[49]。首先,对候选集进行聚合,得到一个整体的全局表示U.随后,进行空间上的全局汇集操作以将U挤压到展平的特征S。在简单的线性投影层之后,获得紧凑特征Z。

实验

a) Effect of TTSA: b) Effect of different values of k

TTSA中的选择速率动态设置为1/2、2/3、3/4和4/5,允许在稀疏和密集选择之间进行灵活的权衡。

我们的top-k标记选择性注意的关键参数是k值。如前所述,我们建议动态地将k设置为多个值,而不是将k设置为单个值,从而允许从稀疏到密集的选择。图12中研究了不同k的PNSR性能。我们观察到,将k设置为一个小值,如1/6,会导致性能急剧下降,因为没有足够的长距离信息可用于恢复。另一方面,选择用于自我注意力计算的所有标记(即,k=100%)也由于更多不相关令牌的干扰而降低PSNR性能。为了在稀疏性和密度之间取得有利的平衡,我们将k设置为具有可控间隔的多个值,以动态捕获最有影响力的令牌。如图12所示,当k在范围h 1 2,4 5 1内时,实现了30.97dB的相对有希望的性能。

不同k值对AID的消融分析(顶部)和TTSA对所有测试集的影响(底部)。

为了更好地理解top-k选择机制的效果,我们进一步将学习到的稀疏掩码Mk在多头自注意的第一个头中可视化。在图14中,我们呈现了当选择率k被设置为50%时的稀疏掩码。此外,我们在密钥令牌K中提供第2和第20个特征图。在第二特征图中,具有丰富纹理的飞机与背景区分不好,即,它在整个特征图上具有相似的响应值。在这种情况下,第二个特征图没有信息,可以被视为噪声令牌。因此,Mk中对应的元素为零,这意味着它将被我们的TTSA提取。相比之下,第20个特征图显示了一个更丰富的模式,其中飞机被很好地激活,具有突出和清晰的细节。因此,TTSA保留第20个特征图用于自注意矩阵计算。该可视化演示了特征的有效选择。

c) Effect of channel-wise selection:

为了研究我们的通道令牌选择策略的性能,我们将其与k最近邻(k-NN)注意力进行比较,该注意力在具有固定k值的空间维度上执行前k选择。PSNR、参数、浮点运算(FLOP)和GPU内存方面的结果如表VII所示。可以观察到,与k-NN注意力相比,我们的TTSA显著降低了计算复杂度。例如,TTSA将FLOP降低了74%(0.5507G vs. 2.1237G),内存成本降低了53%,同时实现了最佳的PSNR性能(28.201dB vs. 28.107dB)。

2)多尺度前馈层:

a)执行MFL的效果。表V中列出了TTST中MFL对SR性能的影响。通过比较模型B和模型C,我们观察到MSF带来0.044dB的改善。为了进一步评估我们的MFL的有效性,我们与标准MLP层进行了比较,该层广泛用于变压器[27],[30],[43]。AID-tiny数据集的PSNR性能和模型效率分析见表VIII。据观察,CNN保留了恢复任务的关键局部性,优于完全连接的MLP层。

b)多尺度设计的效果。为了研究多尺度设计的有效性,我们分别采用单尺度DW-Conv(即,3×3、5×5和7 × 7)进行比较。尽管在前馈过程中利用了各种单尺度DW-Conv,但它们未能同时利用多尺度知识。相比之下,我们的MFL在前馈过程中探索并结合了多尺度线索,从而显著提高了性能。具体来说,我们的MFL实现了0.187dB的原始MLP层的PSNR增益。

b)核分解的效果:如表IX中所报告的,我们提供了对跨越各个相应域R的不同核分解序列(k,d)的综合评估。为了进行比较,还给出了模型参数、FLOP和PSNR性能。实验结果表明,大核分解与单次大核卷积相比,可以显著降低计算复杂度。例如,当R = 11时,核分解在参数(120.803K对3920.58K)和FLOP(1.958G对64.23G)方面显著降低了计算成本。此外,在相同的领域下,具有核合成的模型可以超越单尺度设计。这与我们的GCA的动机一致。单尺度大核卷积虽然增加了各自的场,但却没有考虑到先验知识的尺度变化,而先验知识的尺度变化是全局语境探索所必需的。相比之下,我们的核分解策略能够在不影响感受野的情况下有效地表征多尺度上下文,从而获得上级的SR性能。在广泛的分析之后,我们可以发现R = 23被确定为最有效的,因为它在PSNR方面提供了最佳性能。

c) Effect of GCA:

表5报告了GCA对SR性能的影响,通过Model - C和Model - D的对比分析,PSNR有0.054 dB的显著提升,突出了GCA通过动态调整大字段提取全局上下文的有效性。

更直观地,我们可视化了几个最先进模型的局部属性图( Local Attribution Maps,LAM )。LAM采用集成梯度方法,通过将输出图像中局部块的某些特征归因于SR网络来解释SR网络。LAM的输出表示输入LR图像恢复SR图像中某一块的像素级重要性。如图13所示,较深的红色像素表明对恢复过程的贡献较高。我们的TTST在大规模遥感图像中显示出更大的像素激活,表明我们的GCA显著地扩展了各自的领域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值