论文:Scalable Visual Transformers with Hierarchical Pooling
ViT保持patch序列全长度,这使得信息冗余,缺乏层级特征表示。因此提出一种Hierarchical Visual Transformer,采用渐进的池化token压缩序列长度,减少计算损失,类似于CNN中的特征图下采样,本文没有采用class token ,而是采用平均池化代替单一的class token,实验表明,平均池化更能获取位置信息。
背景:
自注意力你能够捕获长距离依赖,但是transformer计算成本高,因此,设计高效且可扩展的transformer很有必要。自注意机制的二次记忆和计算复杂度,成为transformer的瓶颈。ViT在前向传播中保持全长度序列,这有两点限制:一是不同层应用不同的冗余,对网络正确率和效率贡献应不同,二是缺乏多级别的层级表示。
基于此,本文随着网络加深,渐进的下采样序列长度。在每一个stage应用池化操作缩短序列长度。层级池化有几个优势:(1)可观的计算成本,逐渐缩短的序列长度可以使输入图片分割成更小的patch从而获得高分辨率的特征表示。(2)通用的金字塔层级结构。可以适用不同任务。(3)不使用class-token,直接使用平均池化代替,用结果向量做预测。token可以理解为一个特征通道,class token是可训练的,添加在输入的patch token,随着牵系那个传播,最终用于预测输出。
相关工作:
Visual Transformers.(1)将卷积与自注意力相融合(2)设计