关于Attention:整理

 CNN Attention:

  • SENet [ 18 ]使用通道注意力,
  • CBAM [ 41 ]增加了空间注意力,
  • ECANet [ 37 ]提出了高效的通道注意力来进一步改进SENet。
  • SASA [ 31 ]和SAN [ 48 ]部署了局部注意力层来代替卷积层。
  • 最近LambdaNetwork [ 2 ]引入高效的全局注意力来建模基于内容和基于位置的交互,极大地改善了图像分类模型的速度-准确率权衡。
  • Bo TNet [ 32 ]在Res Net的最后3个瓶颈块中用全局自注意力取代了空间卷积,使得模型在Image Net基准测试集上取得了较强的图像分类性能。

Vision Transformer:

  • Vision Transformer ( ViT ) [ 11 ]是第一个基于Transformer的方法来匹配甚至超过CNN用于图像分类的例子。
  • 许多视觉转换器的变体最近也被提出,使用蒸馏来进行视觉转换器的数据高效训练[ 35 ],像CNNs [ 38 ]这样的金字塔结构,或者使用自注意力来通过学习一个抽象的表示来提高效率,而不是执行所有的自注意力[ 42 ]。
  • 知觉者[ 19 ]利用非对称注意力机制,将输入迭代地提取到一个紧的潜在瓶颈中,使其能够处理非常大的输入。
  • T2T-ViT [ 45 ]引入了一种分层的Tokens - Token ( T2T )变换来编码每个Token的重要局部结构,而不是使用朴素的Token化。
  • 与这些方法不同,本文提出了一种双路径架构来提取多尺度特征,以更好地利用视觉转换器进行视觉表示。

Multi-Scale CNNs:

  •  在CNNs的背景下,多尺度特征表示已被用于多个尺度[ 4、22、44、26]的物体检测和识别,
  • 以及在Big - Little Net [ 5 ]和OctNet [ 6 ]中加速神经网络。
  • bLVNet-TAM [ 12 ]使用双分支多分辨率架构,同时学习跨帧的时间依赖性。
  • 慢速网络[ 13 ]依靠类似的双分支模型,但每个分支编码不同的帧率,与具有不同空间分辨率的帧相反。虽然多尺度特征已被证明有利于CNNs,但其对视觉转换器的适用性仍然是一个新的且在很大程度上未解决的问题。

 

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值