Transformer论文笔记4----采用最大池化压缩模型参数量（不含class token）

最新推荐文章于 2024-08-03 10:43:34 发布

JaJaJaJaaaa

最新推荐文章于 2024-08-03 10:43:34 发布

阅读量960

点赞数 1

分类专栏： Transformer 文章标签：深度学习

本文链接：https://blog.csdn.net/qq_40616042/article/details/116977471

版权

本文探讨了Transformer模型在视觉任务中的优化，通过层次池化逐步缩短序列长度，降低计算成本，同时摒弃class token，采用平均池化来获取位置信息。这种改进提高了模型效率并保留了层次特征表示。研究还指出，层次池化类似CNN的下采样，而平均池化在预测中优于class token。

摘要由CSDN通过智能技术生成

论文：Scalable Visual Transformers with Hierarchical Pooling
ViT保持patch序列全长度，这使得信息冗余，缺乏层级特征表示。因此提出一种Hierarchical Visual Transformer，采用渐进的池化token压缩序列长度，减少计算损失，类似于CNN中的特征图下采样，本文没有采用class token ,而是采用平均池化代替单一的class token，实验表明，平均池化更能获取位置信息。

背景：
自注意力你能够捕获长距离依赖，但是transformer计算成本高，因此，设计高效且可扩展的transformer很有必要。自注意机制的二次记忆和计算复杂度，成为transformer的瓶颈。ViT在前向传播中保持全长度序列，这有两点限制：一是不同层应用不同的冗余，对网络正确率和效率贡献应不同，二是缺乏多级别的层级表示。
基于此，本文随着网络加深，渐进的下采样序列长度。在每一个stage应用池化操作缩短序列长度。层级池化有几个优势：（1）可观的计算成本，逐渐缩短的序列长度可以使输入图片分割成更小的patch从而获得高分辨率的特征表示。（2）通用的金字塔层级结构。可以适用不同任务。（3）不使用class-token，直接使用平均池化代替，用结果向量做预测。token可以理解为一个特征通道，class token是可训练的，添加在输入的patch token，随着牵系那个传播，最终用于预测输出。

相关工作：
Visual Transformers.（1）将卷积与自注意力相融合（2）设计