IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

1:使用了金字塔结构的transformer encoder。
2:每一层的特征进过concat输入到卷积层用于分割。
3:结合一个类似于Inception的结构和逐深度卷积,和强量化的前向模块。
在这里插入图片描述
segformer和P2T将卷积和池化应用于注意力层去减少复杂度,但是他们只使用其中的一个,作者使用了两个。使用inception的多尺度卷积的思想,可以捕捉丰富的上下文信息,同时减少计算量。
主要的incep-mhsa模块:
在这里插入图片描述
借鉴inception的架构思想,通过三种不同的分支产生特征图,一条分支为条状卷积1xn和nx1,一条直接使用了3x3卷积,另一条使用了平均池化后接逐深度卷积。
在这里插入图片描述
因为k和v是进过下采样的,所以token长度相比于直接展开会变短,因此就减少了计算量同时增加了上下文信息。在Inception中,有效的下采样方法就是通过多路分支下采样然后concat在一起,而非直接的下采样对视过多的信息,这个地方为什么不使用膨胀卷积呢?我觉得膨胀卷积是为了避免下采样到来的信息损失同时增大感受野,而这里本来就需要卷积下采样来减小计算量。
然后仍是普通的多头自注意力机制:
在这里插入图片描述
一个有效的前向传播模块:
在这里插入图片描述
一个简单的上采样拼接模块:
作者在结果中发现©的效果是最好的,如果将feature的特征统一的话会损失通道信息。
在这里插入图片描述
实验:相比于CNN-based和transformer-based的结构,发现达到了SOTA。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值