IncepFormer: Efficient Inception Transformer with Pyramid Pooling for Semantic Segmentation

翰墨大人

已于 2022-12-14 20:45:35 修改

阅读量437

点赞数 1

分类专栏： paper总结文章标签： transformer 深度学习人工智能 pytorch 计算机视觉

于 2022-12-14 20:45:08 首次发布

本文链接：https://blog.csdn.net/qq_43733107/article/details/128321515

版权

paper总结专栏收录该内容

41 篇文章 14 订阅

订阅专栏

1：使用了金字塔结构的transformer encoder。
2：每一层的特征进过concat输入到卷积层用于分割。
3：结合一个类似于Inception的结构和逐深度卷积，和强量化的前向模块。
在这里插入图片描述
segformer和P2T将卷积和池化应用于注意力层去减少复杂度，但是他们只使用其中的一个，作者使用了两个。使用inception的多尺度卷积的思想，可以捕捉丰富的上下文信息，同时减少计算量。
主要的incep-mhsa模块：
在这里插入图片描述
借鉴inception的架构思想，通过三种不同的分支产生特征图，一条分支为条状卷积1xn和nx1，一条直接使用了3x3卷积，另一条使用了平均池化后接逐深度卷积。

因为k和v是进过下采样的，所以token长度相比于直接展开会变短，因此就减少了计算量同时增加了上下文信息。在Inception中，有效的下采样方法就是通过多路分支下采样然后concat在一起，而非直接的下采样对视过多的信息，这个地方为什么不使用膨胀卷积呢？我觉得膨胀卷积是为了避免下采样到来的信息损失同时增大感受野，而这里本来就需要卷积下采样来减小计算量。
然后仍是普通的多头自注意力机制：
在这里插入图片描述
一个有效的前向传播模块：

一个简单的上采样拼接模块：
作者在结果中发现©的效果是最好的，如果将feature的特征统一的话会损失通道信息。

实验：相比于CNN-based和transformer-based的结构，发现达到了SOTA。