Transformer论文笔记4----采用最大池化压缩模型参数量(不含class token)

本文探讨了Transformer模型在视觉任务中的优化,通过层次池化逐步缩短序列长度,降低计算成本,同时摒弃class token,采用平均池化来获取位置信息。这种改进提高了模型效率并保留了层次特征表示。研究还指出,层次池化类似CNN的下采样,而平均池化在预测中优于class token。
摘要由CSDN通过智能技术生成

论文:Scalable Visual Transformers with Hierarchical Pooling
ViT保持patch序列全长度,这使得信息冗余,缺乏层级特征表示。因此提出一种Hierarchical Visual Transformer,采用渐进的池化token压缩序列长度,减少计算损失,类似于CNN中的特征图下采样,本文没有采用class token ,而是采用平均池化代替单一的class token,实验表明,平均池化更能获取位置信息。

背景:
自注意力你能够捕获长距离依赖,但是transformer计算成本高,因此,设计高效且可扩展的transformer很有必要。自注意机制的二次记忆和计算复杂度,成为transformer的瓶颈。ViT在前向传播中保持全长度序列,这有两点限制:一是不同层应用不同的冗余,对网络正确率和效率贡献应不同,二是缺乏多级别的层级表示。
基于此,本文随着网络加深,渐进的下采样序列长度。在每一个stage应用池化操作缩短序列长度。层级池化有几个优势:(1)可观的计算成本,逐渐缩短的序列长度可以使输入图片分割成更小的patch从而获得高分辨率的特征表示。(2)通用的金字塔层级结构。可以适用不同任务。(3)不使用class-token,直接使用平均池化代替,用结果向量做预测。token可以理解为一个特征通道,class token是可训练的,添加在输入的patch token,随着牵系那个传播,最终用于预测输出。

相关工作:
Visual Transformers.(1)将卷积与自注意力相融合(2)设计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值