关于Attention：整理

最新推荐文章于 2024-08-25 22:07:20 发布

Alchemist-xx

最新推荐文章于 2024-08-25 22:07:20 发布

阅读量326

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/aixiaomi123/article/details/136355804

版权

本文探讨了从SENet到LambdaNetwork和BoTNet的通道和空间注意力发展，以及VisionTransformer和其变体如何利用自注意力和多尺度特征。同时，对比了Multi-ScaleCNNs在物体检测中的应用，并指出其在视觉转换器中的潜力和挑战。

摘要由CSDN通过智能技术生成

Vision Transformer ( ViT ) [ 11 ]是第一个基于Transformer的方法来匹配甚至超过CNN用于图像分类的例子。
许多视觉转换器的变体最近也被提出，使用蒸馏来进行视觉转换器的数据高效训练[ 35 ]，像CNNs [ 38 ]这样的金字塔结构，或者使用自注意力来通过学习一个抽象的表示来提高效率，而不是执行所有的自注意力[ 42 ]。
知觉者[ 19 ]利用非对称注意力机制，将输入迭代地提取到一个紧的潜在瓶颈中，使其能够处理非常大的输入。
T2T-ViT [ 45 ]引入了一种分层的Tokens - Token ( T2T )变换来编码每个Token的重要局部结构，而不是使用朴素的Token化。
与这些方法不同，本文提出了一种双路径架构来提取多尺度特征，以更好地利用视觉转换器进行视觉表示。

在CNNs的背景下，多尺度特征表示已被用于多个尺度[ 4、22、44、26]的物体检测和识别，
以及在Big - Little Net [ 5 ]和OctNet [ 6 ]中加速神经网络。
bLVNet-TAM [ 12 ]使用双分支多分辨率架构，同时学习跨帧的时间依赖性。
慢速网络[ 13 ]依靠类似的双分支模型，但每个分支编码不同的帧率，与具有不同空间分辨率的帧相反。虽然多尺度特征已被证明有利于CNNs，但其对视觉转换器的适用性仍然是一个新的且在很大程度上未解决的问题。

关注