Transformer是真热啊!叠上小波变换热上加热,绝对还能发更多顶会论文!

围绕Transformer的研究一直以来都是各大顶会的热门投稿方向,比如它自身的魔改、与其他技术结合等等。最近在ECCV 2024上发现的一篇高质量paper就讲的是Transformer结合小波变换,提出的架构在捕获空间频率模式方面非常有效,性能远超现有的SNN。

The overview of SWformer

有这样的效果也不奇怪,这种结合策略的优势就在于能够利用小波变换的多尺度特性增强Transformer在处理信号和图像数据时的表现,让模型既能处理信号的细微变化,又能理解整体上下文,从而在图像识别等领域实现效率与准确率的完美平衡。

因此这个方向的研究多,顶会成果也不少,比如CVPR 2024的GestFormer模型,用于动态手势识别、AAAI 2024的视频修复模型WaveFormer等等。有需要的参考的论文er可以直接看我整理好的15篇Transformer+小波变换最新paper,基本都是顶会顶刊且有代码,帮大家节省点找论文的时间精力。

全部论文+开源代码需要的同学看文末

【AAAI 2024】WaveFormer: Wavelet Transformer for Noise-Robust Video Inpainting

方法:文章介绍了一个名为WaveFormer的模型,它结合了小波变换和Transformer架构用于视频修复。WaveFormer通过引入离散小波变换(DWT)分解嵌入的低频和高频成分,以低频成分计算注意力,显著缓解噪声影响。

创新点:

  • 首次理论证明了噪声在注意力计算中的影响,指出噪声会减少对相关内容的注意力并增加对无关内容的注意力。

  • 提出了一种新颖的波变换网络,称为WaveFormer。该网络通过引入离散小波变换(DWT)将嵌入中的噪声分离为高频成分,利用较为干净的低频成分来计算注意力,从而显著降低噪声对注意力计算的影响。

【CVPR 2024】GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

方法:论文介绍了一个名为GestFormer的模型,是用于动态手势识别的多尺度小波池化变换网络。GestFormer结合了小波变换和Transformer架构,特别是通过一个名为MWPA的新颖令牌混合器,该混合器在传递输入到池化层之前使用多尺度池化和离散小波变换来映射输入到小波空间。

创新点:

  • 提出了一种新颖的多尺度小波池化注意机制,利用小波变换将输入映射到小波空间,然后通过池化层进行处理。

  • 设计了一种门控前馈网络 (GFFN),用于在Transformer块的不同阶段精确过滤和传递信息。

  • 利用PoolFormer架构,替代传统Transformer中的注意机制,通过非参数化的池化操作实现令牌混合。

【MICCAI 2023】Unlocking Fine-Grained Details with Wavelet-based High-Frequency Enhancement in Transformers

方法:论文提出了一种基于小波变换的频率增强Transformer(FET)方法,通过重新设计自注意力机制并结合边界注意力图和多尺度上下文增强模块,有效捕捉医疗图像分割中的细节和边界信息,以改善医学图像分割的性能。

创新点:

  • 提出了一个创新的FET模块,结合了频率增强模块和边界感知注意力图,以自适应的方式建模形状和纹理表示。

  • 在跳跃连接中应用了MSCE模块,以解决编码器和解码器阶段之间的语义差距。

  • 重新设计了自注意力机制,将二次自注意力图计算重新表述为线性操作,显著降低了计算复杂度。

【NTIRE 2024】Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution

方法:这篇论文提出了一种新的混合Transformer模型,通过在模型中引入卷积非局部稀疏注意力(NLSA)模块来扩大感受野,并采用小波损失来训练模型,从而显著提高了单图像超分辨率任务中高频细节的捕捉能力和图像的视觉质量。

创新点:

  • 通过在混合Transformer架构中引入NLSA块,扩大了感受野,提升了超分辨率图像的重建质量。

  • 利用小波损失对Transformer模型进行训练,改善了量化和主观性能。

  • 将HAT架构夹在非局部稀疏注意力块之间,进一步扩大了感受野。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“WTTR”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

### 小波变换Transformer的结合应用及实现 #### 1. 应用背景 小波变换作为一种强大的信号处理工具,在图像处理、语音识别等领域有着广泛的应用。而Transformer架构凭借其自注意力机制在自然语言处理和其他序列建模任务上取得了显著成果。两者的结合能够有效提升多种应用场景下的模型表现。 #### 2. 数据预处理阶段的小波变换 通过引入小波变换作为前置步骤来增强原始数据的质量,具体来说就是利用离散小波变换(DWT)对输入的数据(如时间序列或二维图片)进行分解操作,得到不同频率子带上的系数表示形式[^1]。这一步骤有助于去除噪声并突出重要特征。 ```python import pywt coeffs = pywt.wavedec(data, 'db4', level=3) cA, cD3, cD2, cD1 = coeffs ``` #### 3. 特征提取后的转换过程 经过上述预处理之后所获得的新表征可以直接送入基于Transformer结构构建而成的学习框架内继续深入挖掘潜在规律。此时需要注意的是如何合理设计tokenization策略使得低维空间中的局部依赖关系得以保留的同时又能充分利用全局上下文信息[^2]。 ```python class WaveletBasedImageTokenizer(nn.Module): def __init__(self, wavelet='haar'): super().__init__() self.transform = T.Compose([ lambda img: torch.tensor(pywt.dwt2(img.permute(1, 2, 0).numpy(), wavelet)[0]), ... ]) def forward(self, x): return self.transform(x) ``` #### 4. 实验验证与实际效果展示 实验表明,在水下图像修复这一特定场景中采用带有频域扩散调整机制(FDA)的小波基Fourier信息交互方法确实能取得更好的视觉质量恢复结果;而在其他通用计算机视觉任务里同样观察到了精度方面的明显改善趋势[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值