自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 【无标题】

本篇文章对多尺度层次化的transformer有新的诠释,以往的多尺度层次化transformer主干往往每个阶段的特征图只参与本阶段的计算,在本文中,每个阶段的特征图都要随着主干推进而更新并且参与其他特征图的计算。论文PDF地址。

2023-01-13 19:28:13 353

原创 Dual-Flattening Transformers through Decomposed Row and Column Queries for Semantic Segmentation论文解读

本篇文章将输入特征图分别按行和列展开,获得两个序列特征图,将这两个序列做类似于cross-attention的自注意力。这么做的好处在于以往从低分率特征图h * w到高分辨率特征图H * W需要O(hwHW)的复杂度,现在只需要O(hw(H+W)),同时也能有效的恢复细粒度细节。论文PDF地址。

2023-01-06 02:17:18 210

原创 Less is More_ Pay Less Attention in Vision Transformers论文解读

这篇文章介绍两篇论文,一篇是LiT,另一篇是它的改进版本LiTv2。LiT的创新点在于两个地方。第一点在4阶段的层次化vision transformer结构中使用两个线性层来取代一个阶段的多头自注意力。4个阶段前两个阶段都是mlp层。减少了计算量。第二点在于使用了Deformable Convolution来做patch merging.

2022-12-15 11:40:12 624

原创 RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer论文解读

本文的创新点在于使用了高分辨率与低分辨率并行计算的语义分割transformer框架,并且提出了对低分辨率使用的gpu-frienndly attention,gpu-frienndly attention则是在外部注意力的基础上改进得到的。对高分辨率使用cross attention。论文PDF地址github代码地址。

2022-12-12 19:41:30 786

原创 【LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference论文解读】

  本文的创新点在于提出了transformer金字塔,attention计算中减小Q的大小,让特征图过了几层transformer金字塔后HW大大缩小,C有限增加,宏观上LeViT是CNN金字塔+transformer金字塔,最后实现小数据量的层次性transforrmer结构。另外本文还提出了attention bias用来取代position encoding.论文地址:论文PDF地址代码地址:github代码地址  作者说他们重新审视了CNN结构的优点,想着把CNN的结构引入transforme

2022-12-07 18:43:53 609

原创 TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation论文解读

  本文试图在移动平台上实现低成本的transfomer计算来进行语义分割,并且实现多尺度融合。对于类似语义分割这种密集预测任务来说多尺度交互是很重要的,其他文章的多尺度融合一般是将编码器中的transfomer实现类似CNN的分层结构,然后将不同scale的特征图拿来进行融合。而这篇文章的创新点是通过金字塔结构将token多尺度化,然后将不同尺度的token进行融合。这样做既融合了多尺度的图像又因为H,W减小减小了计算量。再通过原始token与经过transfomer处理后的特征图进行融合,在分割的任务表

2022-12-05 20:43:34 1025

原创 【SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation论文解读】

本文提出了卷积注意力以取得和自注意力在语义分割领域相同的效果。实际上就是试图把transfomer的计算过程移植到卷积上,尽可能模仿出transfomer的优秀网络结构。论文PDF地址github代码地址本文声称证明了卷积注意力比transfomer中的自注意力模块能更加高效,有效的对上下文信息进行编码。本文观察并总结了几种优秀的分割模型所拥有的特征,发现了几种改进分割模型性能改进的关键点。

2022-12-02 16:53:23 399

原创 【Segmenter: Transformer for Semantic Segmentation论文解读】

这篇文章属于是将Transfomer用于语义分割的早期尝试。编码器和解码器都用的是ViT的transfomer块。创新点主要位于解码器部分,作者构思了两种解码器让从transfomer编码器里面出来的特征图经过解码器得到最终分割图。论文PDF地址github代码地址图像分割在单独的图像patch级别会出现模糊不清的情况,分割需要上下文信息才能有较好的效果。本文介绍的Segmenter可以在网络中进行全局上下文建模。

2022-12-01 21:12:12 1012

原创 【Co-Scale Conv-Attentional Image Transformers论文解读】

Co-Scale Conv-Attentional Image Transformers解读

2022-11-18 17:25:16 315 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除