CNN Attention:
- SENet [ 18 ]使用通道注意力,
- CBAM [ 41 ]增加了空间注意力,
- ECANet [ 37 ]提出了高效的通道注意力来进一步改进SENet。
- SASA [ 31 ]和SAN [ 48 ]部署了局部注意力层来代替卷积层。
- 最近LambdaNetwork [ 2 ]引入高效的全局注意力来建模基于内容和基于位置的交互,极大地改善了图像分类模型的速度-准确率权衡。
- Bo TNet [ 32 ]在Res Net的最后3个瓶颈块中用全局自注意力取代了空间卷积,使得模型在Image Net基准测试集上取得了较强的图像分类性能。
Vision Transformer:
- Vision Transformer ( ViT ) [ 11 ]是第一个基于Transformer的方法来匹配甚至超过CNN用于图像分类的例子。
- 许多视觉转换器的变体最近也被提出,使用蒸馏来进行视觉转换器的数据高效训练[ 35 ],像CNNs [ 38 ]这样的金字塔结构,或者使用自注意力来通过学习一个抽象的表示来提高效率,而不是执行所有的自注意力[ 42 ]。
- 知觉者[ 19 ]利用非对称注意力机制,将输入迭代地提取到一个紧的潜在瓶颈中,使其能够处理非常大的输入。
- T2T-ViT [ 45 ]引入了一种分层的Tokens - Token ( T2T )变换来编码每个Token的重要局部结构,而不是使用朴素的Token化。
- 与这些方法不同,本文提出了一种双路径架构来提取多尺度特征,以更好地利用视觉转换器进行视觉表示。
Multi-Scale CNNs:
- 在CNNs的背景下,多尺度特征表示已被用于多个尺度[ 4、22、44、26]的物体检测和识别,
- 以及在Big - Little Net [ 5 ]和OctNet [ 6 ]中加速神经网络。
- bLVNet-TAM [ 12 ]使用双分支多分辨率架构,同时学习跨帧的时间依赖性。
- 慢速网络[ 13 ]依靠类似的双分支模型,但每个分支编码不同的帧率,与具有不同空间分辨率的帧相反。虽然多尺度特征已被证明有利于CNNs,但其对视觉转换器的适用性仍然是一个新的且在很大程度上未解决的问题。