HAT(CVPR 2023):基于混合注意力机制的图像重建网络

研究提出HAT,一种结合通道注意力和自注意力的Transformer,激活更多输入像素以改善图像恢复。通过重叠交叉注意模块增强窗口间信息交互,解决SwinIR中的阻塞伪影问题。预训练策略也有所改进。

HAT

论文地址HAT: Hybrid Attention Transformer for Image Restoration

代码地址XPixelGroup/HAT: CVPR2023 - Activating More Pixels in Image Super-Resolution Transformer

摘要

​ 通过归因分析attribution analysis method - Local Attribution Map (LAM),发现目前基于Transformer的方法只能来利用有限的输入空间信息。这意味着 Transformer 的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素以获得更好的恢复,提出了一种新的混合注意Transformer(HAT)。它结合了通道注意力和基于窗口的自注意力机制,从而利用了它们的互补优势。此外,为了更好地聚合窗口之间信息,引入了一个重叠的交叉注意模块来增强相邻窗口特征之间的交互。在训练阶段,采用了相同的任务预训练策略来进一步利用模型的潜力进行进一步改进。

现阶段问题

  1. SwinIR 比基于 CNN 的方法(例如 RCAN [10])在某些场景利用的输入像素更少
  2. 在 SwinIR 的中间特征中会出现阻塞伪影。这表明移位窗口机制不能完美地实现跨窗口信息交互。

主要贡献

  1. 提出了一种混合注意力 Transformer,即 HAT。结合通道注意和自注意力机制,以利用前者transformer使用全局信息的能力(激活更多像素)和后者Self-attention强大的representative ability
  2. 引入了一个overlapping的注意力窗口模块来实现相邻窗口特征的更直接的交互,减少阻塞伪影产生。

网络框架

2023-11-22_10-03-02

HAB模块

采用标准Swin Transformer块的类似结构,并再其中融入了Channel Attention。

  • 增加window size大小为16,扩大窗口感受野,因为根据实验,限制窗口大小能节省计算成本,单通过移位窗口逐步增加感受野,却牺牲了自注意力机制的表征能力。
  • 引入通道注意力机制,会激活更多像素,因为其涉及利用全局信息计算,有利于对纹理部分的优化。

overlapping window partition

​ 我们的 OCA 与 Multi-resolution Overlapped Attention (MOA) 根本不同。MOA 使用窗口特征作为token计算全局注意力,而 OCA 使用像素token计算每个窗口特征内的交叉注意力。

​ 为什么不全部使用OCA,因为全部使用这种模块会不可避免带来大量计算负担,采用有限数量的OCA可以有效增加窗口之间的交互。

2023-11-22_10-18-02

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Miracle Fan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值