改进YOLOv5系列:结合CVPR2021:多头注意力Efficient Multi-Head Self-Attention

本文介绍了ResT,一个用于图像识别的高效多尺度视觉变换器,解决了Transformer骨干网络在低级特征提取、计算开销和位置编码灵活性上的问题。ResT通过深度卷积压缩内存并实现空间注意,动态调整感受野,提高性能。代码和参数结果也进行了分享。
摘要由CSDN通过智能技术生成

在这里插入图片描述


论文: ResT: An Efficient Transformer for Visual
Recognition

Efficient注意力介绍

  本文提出了一个高效的多尺度视觉变换器,称为ResT,它可以作为图像识别的通用支柱。可以作为图像识别的通用骨干。不同于
  现有的变换器方法,采用标准的变换器模块来处理具有固定分辨率的原始图像。
我们的ResT有几个优点:

  1. 构建了一个内存高效的多头自关注,它通过简单的深度卷积压缩了内存。
  2. 构建了一个内存高效的多头自我注意,它通过一个简单的深度卷积来压缩内存,并将交互作用投射到整个
    注意力-头的维度,同时保持多头的多样性能力;(2)
    位置编码被构建为空间注意,它更加灵活,可以处理任意的输入图像。
  3. 位置编码是以空间注意的形式构建的,它更加灵活,可以处理任意大小的输入图像,不需要插值或微调;
  4. 我们没有在每个阶段的开始直接进行标记化,而是将补丁嵌入设计为堆栈式。
    而不是在每个阶段的开始直接进行标记化,我们把补丁嵌入设计成一个叠加的卷积操作,并在标记图上有一个跨度。
    符号图上的跨度。我们在图像分类中全面验证了ResT和下游任务上进行全面验证。实验结果表明,提出的ResT可以在很大程度上超过了最近的最先进的骨干网࿰
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一休哥※

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值