【YOLOv10改进-注意力机制】HAT(Hybrid Attention Transformer,)混合注意力机制

YOLOv10目标检测创新改进与实战案例专栏

改进目录: YOLOv10有效改进系列及项目实战目录:卷积,主干 注意力,检测头等创新机制

专栏链接: YOLOv10 创新改进有效涨点

介绍

image-20240523091501761

摘要

基于Transformer的方法在低级视觉任务中表现出色,例如图像超分辨率。然而,通过归因分析,我们发现这些网络只能利用输入信息的有限空间范围。这表明Transformer在现有网络中的潜力尚未完全发挥。为了激活更多的输入像素以获得更好的重建效果,我们提出了一种新颖的混合注意力Transformer(Hybrid Attention Transformer, HAT)。它结合了通道注意力和基于窗口的自注意力机制,从而利用了它们能够利用全局统计信息和强大的局部拟合能力的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了一个重叠交叉注意模块,以增强相邻窗口特征之间的交互。在训练阶段,我们还采用了同任务预训练策略,以进一步挖掘模型的潜力。大量实验表明了所提模块的有效性,我们进一步扩大了模型规模,证明了该任务的性能可以大幅提高。我们的方法整体上显著优于最先进的方法,超过了1dB。

创新点

  1. 更多像素的激活:通过结合不同的注意力机制,HAT能够激活更多的输入像素,这在图像超分辨率领域尤为重要,因为它直接关系到重建图像的细节和质量。

  2. 交叉窗口信息的有效聚合:通过重叠交叉注意力模块,HAT模型能够更有效地聚合跨窗口的信息,避免了传统Transformer模型中窗口间信息隔离的问题。

  3. 针对图像超分辨率优化的预训练策略:HAT采用的同任务预训练策略针对性强,能够更有效地利用大规模数据预训练的优势,提高模型在特定超分辨率任务上的表现。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

Hybrid Attention Transformer (HAT) 是一种针对图像超分辨率任务的新型Transformer模型,它结合了通道注意力(channel attention)和窗口自注意力(window-based self-attention),并引入了重叠交叉注意力模块(overlapping cross-attention module)来优化特征间的交互。以下是HAT的技术原理和创新点:

  1. 通道注意力与窗口自注意力结合:HAT模型通过结合通道注意力和窗口自注意力的优势,能够利用全局信息并增强局部拟合能力,从而激活更多的输入像素以实现更精准的图像重建。

  2. 重叠交叉注意力模块:为了更好地聚合窗口间信息,HAT引入了重叠交叉注意力模块,该模块能够加强相邻窗口特征之间的交互,通过使用重叠窗口来计算交叉注意力,从而提高信息利用率和重建质量。

  3. 同任务预训练策略:与使用多任务或多级别退化预训练不同,HAT直接在大规模数据集上对同一任

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YOLO大师

你的打赏,我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值