Wan-yuming-CSDN博客

原创【无标题】

本篇文章对多尺度层次化的transformer有新的诠释，以往的多尺度层次化transformer主干往往每个阶段的特征图只参与本阶段的计算，在本文中，每个阶段的特征图都要随着主干推进而更新并且参与其他特征图的计算。论文PDF地址。

2023-01-13 19:28:13 353

原创 Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation论文解读

本篇文章将输入特征图分别按行和列展开，获得两个序列特征图，将这两个序列做类似于cross-attention的自注意力。这么做的好处在于以往从低分率特征图h * w到高分辨率特征图H * W需要O(hwHW)的复杂度，现在只需要O(hw(H+W))，同时也能有效的恢复细粒度细节。论文PDF地址。

2023-01-06 02:17:18 210

原创 Less is More_ Pay Less Attention in Vision Transformers论文解读

这篇文章介绍两篇论文，一篇是LiT,另一篇是它的改进版本LiTv2。LiT的创新点在于两个地方。第一点在4阶段的层次化vision transformer结构中使用两个线性层来取代一个阶段的多头自注意力。4个阶段前两个阶段都是mlp层。减少了计算量。第二点在于使用了Deformable Convolution来做patch merging.

2022-12-15 11:40:12 624

原创 RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer论文解读

本文的创新点在于使用了高分辨率与低分辨率并行计算的语义分割transformer框架，并且提出了对低分辨率使用的gpu-frienndly attention，gpu-frienndly attention则是在外部注意力的基础上改进得到的。对高分辨率使用cross attention。论文PDF地址github代码地址。

2022-12-12 19:41:30 786

原创【LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference论文解读】

本文的创新点在于提出了transformer金字塔，attention计算中减小Q的大小，让特征图过了几层transformer金字塔后HW大大缩小，C有限增加，宏观上LeViT是CNN金字塔+transformer金字塔，最后实现小数据量的层次性transforrmer结构。另外本文还提出了attention bias用来取代position encoding.论文地址：论文PDF地址代码地址：github代码地址作者说他们重新审视了CNN结构的优点，想着把CNN的结构引入transforme

2022-12-07 18:43:53 609

原创 TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation论文解读

本文试图在移动平台上实现低成本的transfomer计算来进行语义分割，并且实现多尺度融合。对于类似语义分割这种密集预测任务来说多尺度交互是很重要的，其他文章的多尺度融合一般是将编码器中的transfomer实现类似CNN的分层结构，然后将不同scale的特征图拿来进行融合。而这篇文章的创新点是通过金字塔结构将token多尺度化，然后将不同尺度的token进行融合。这样做既融合了多尺度的图像又因为H,W减小减小了计算量。再通过原始token与经过transfomer处理后的特征图进行融合，在分割的任务表

2022-12-05 20:43:34 1025

qq_42476803的博客

原创【无标题】

原创 Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation论文解读

原创 Less is More_ Pay Less Attention in Vision Transformers论文解读

原创 RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer论文解读

原创【LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference论文解读】

原创 TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation论文解读

原创【SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation论文解读】

原创【Segmenter: Transformer for Semantic Segmentation论文解读】

原创【Co-Scale Conv-Attentional Image Transformers论文解读】

空空如也

空空如也