![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer系列
文章平均质量分 93
m0_61899108
这个作者很懒,什么都没留下…
展开
-
【NeurIPS 2023】PromptIR: Prompting for All-in-One Blind Image Restoration
图像恢复是从其受损版本中恢复高质量清晰图像的过程。deep-learning方法显著提升了图像恢复性能,然而,它们在不同类型和级别的退化上的泛化能力有限。这限制了它们在实际应用中的使用,因为需要针对每种具体的退化进行单独训练模型,并了解输入图像的退化类型才能应用相应的模型。本文介绍了一种基于提示的学习方法,称为PromptIR,用于全能图像恢复,可以有效地从各种类型和级别的退化中恢复图像。具体而言,本文方法使用提示来编码退化特定信息,并动态引导恢复网络。原创 2023-12-02 17:34:36 · 1477 阅读 · 2 评论 -
【半监督学习】CNN与Transformer的结合
本文介绍了几篇结合使用CNN和Transformer进行半监督学习的论文,CNN&Trans(MIDL2022),Semi-ViT(ECCV2022),Semiformer(ECCV2022)。原创 2023-11-19 20:01:53 · 3140 阅读 · 0 评论 -
【TGRS 2023】RingMo-Sense: Remote Sensing Foundation Model for Spatiotemporal Prediction via Spatiotem
遥感时空预测旨在从视频和时间序列图像等历史时空数据中推断未来趋势,在许多领域具有广泛的应用前景。基础模型由于其强大的特征提取能力,是时空信息挖掘的一个很有前途的研究方向,在自然场景中取得了快速的进展。然而,由于遥感数据的空间多尺度和时间多尺度特性,这些方法在应用于遥感时仍然会遇到瓶颈。因此,论文提出了一种基于时空演化去模糊的时空预测遥感基础模型,简称RingMo-Sense。考虑到空间亲和性、时间连续性和时空相互作用,论文构建了空间、时间和时空三分支预测网络。原创 2023-11-11 23:54:24 · 1277 阅读 · 0 评论 -
【arXiv2309】RingMo-lite: A Remote Sensing Multi-taskLightweight Network with CNN-TransformerHybrid Fr
近年来,RingMo的遥感(RS)视觉基础模型在各种下游任务中取得了优异的性能。然而,对计算资源的高需求限制了这些模型在边缘设备上的应用。有必要设计一个更轻量级的基础模型来支持在轨遥感图像解释。现有方法在实现轻量级解决方案的同时在RS图像解释中保持通用性方面面临挑战。这是由于RS图像中复杂的高频和低频频谱分量,使得传统的单一CNN或视觉变换器方法不适合该任务。因此,本文提出了RingMo-lite,一个具有CNN-Transformer混合框架的RS多任务轻量级网络,它有效地利用了RS的频域特性。原创 2023-10-04 15:03:31 · 2787 阅读 · 0 评论 -
【TGRS 2023】RingMo: A Remote Sensing Foundation ModelWith Masked Image Modeling
深度学习方法促进了遥感 (RS) 图像解释的快速发展。最广泛使用的是利用ImageNet预训练模型来处理指定任务的 RS 数据。然而,存在自然场景与RS场景之间的领域差距,以及 RS模型泛化能力差 等问题。开发具有通用 RS 特征表示的基础模型是有意义的。由于有大量未标记的数据可用,自监督方法在遥感方面比全监督方法具有更大的发展意义。然而,目前大多数自监督方法都使用 对比学习,其性能对数据增强、附加信息以及正负对的选择很敏感。本文利用。原创 2023-10-25 22:09:18 · 2429 阅读 · 0 评论 -
【CVPR 2023】 All are Worth Words: A ViT Backbone for Diffusion Models
文中首次使用U-Net建模score-based model (即diffusion model),后续DDPMADMImagen等许多工作对U-Net进行了一系列改进。目前,绝大多数扩散概率模型的论文依然使用U-Net作为主干网络。ViT在各种视觉任务中显示出了前景,而基于CNN的U-Net在扩散模型中仍然占主导地位。论文设计了一种简单通用的基于ViT的架构(命名为U-ViT),用于使用扩散模型生成图像。原创 2023-10-10 21:55:10 · 2557 阅读 · 0 评论 -
【ICCV 2023】EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction
高分辨率密集预测得到越来越多的应用,如计算摄影、自动驾驶等。然而,巨大的计算成本使得在硬件设备上部署最先进的高分辨率密集预报模型变得困难。本文提出EfficientViT,一个新的高分辨率视觉模型家族,具有新颖的多尺度线性特性。不同于现有的高分辨率密集预测模型依赖于大量的softmax注意力、硬件低效的大内核卷积或复杂的拓扑结构来获得良好的性能,多尺度线性注意力只需轻量级和硬件高效的操作就可以实现全局感受野和多尺度学习(高分辨率密集预测的两个理想特征)。原创 2023-11-02 20:30:49 · 3269 阅读 · 1 评论 -
【CVPR 2023】EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention
Vision Transformer由于其高度的建模能力而取得了巨大的成功。然而,它们的卓越性能伴随着沉重的计算代价,不适合于实时应用。本文提出了一个高速ViT,即EfficientViT。论文发现,现有的Transformer模型的速度通常受到访存效率低的操作的限制,尤其是在MHSA中的张量重塑和逐元素函数。因此,论文设计了一种新的三明治布局的构建块,即在有效的FFN层之间使用单个内存受限的MHSA,在增强通道通信的同时提高了访存效率。此外,注意力图在头部之间有很高的相似性,导致计算冗余。原创 2023-10-03 11:15:27 · 4990 阅读 · 1 评论 -
【ECCV2022】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation
文如题名,本文使用纯Transformer构建Unet网络,用于医学图像分割。本文用Swin Transformer替换Unet全部结构,构建出Swin-UNet。原创 2023-08-22 21:04:49 · 3402 阅读 · 0 评论 -
【ICCV2021】Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions
PVT 把金字塔结构引入到Transformer中,使其可以无缝接入各种下游任务。简单调整Multi-Head Attention,提出spatial reduction attention。本文仿照CNNs中常见的金字塔结构,改进原始的Transformer,划分多个stage,每个stage的长宽减半,通道维度增加,再把多个stage进行叠加。以应用于分类、检测、分割等任务。原创 2023-08-22 19:36:47 · 2831 阅读 · 0 评论 -
【ICCV2023】Robustifying Token Attention for Vision Transformers
Vision Transformer在图像分类等任务中表现出色,但在面对常见的图像扰动(如噪声或模糊)时,其性能会显著下降。为此,论文对ViT的关键组成部分——自注意力机制进行研究分析,发现当前的视觉transformer模型在自注意力机制中存在"token overfocusing"的问题,即注意力机制过度依赖于少数重要token。然而这些token对图像扰动非常敏感。Token-aware Average Pooling(TAP)和Attention Diversification Loss(ADL)原创 2023-08-28 22:33:24 · 2807 阅读 · 0 评论 -
【论文综述】Transformer 综述
中国科学院、东南大学等联合发表最新的视觉 Transformer 综述_中科院AI算法工程师的博客-CSDN博客Transformer综述大全(1)【A Survey of Visual Transformers】_香博士的博客-CSDN博客Transformer综述大全(2)【A Survey of Visual Transformers】_香博士的博客-CSDN博客_transformer综述[Transformer]A Survey on Vision Transformer_黄小米吖的博客.原创 2023-08-18 22:04:28 · 2607 阅读 · 0 评论 -
【图像分类】CNN+Transformer结合系列.3
介绍两篇图像分类的论文:ResMLP(arXiv2305),MetaFormer(CVPR2022),两者都与Transformer有关系,前者基于transformer结构的特点设计ResMLP,后者认为宏观架构才是Transformer成功的原因并设计一个简单的PoolFormer结构。原创 2023-07-31 13:17:35 · 6255 阅读 · 0 评论 -
【图像分类】CNN + Transformer 结合系列.4
介绍两篇利用Transformer做图像分类的论文:CoAtNet(NeurIPS2021),ConvMixer(ICLR2022)。CoAtNet结合CNN和Transformer的优点进行改进,ConvMixer则patch的角度来说明划分patch有助于分类。原创 2023-08-09 16:23:26 · 6289 阅读 · 0 评论 -
【图像分类】CNN+Transformer结合系列.2
介绍几篇利用CNN+Transformer实现图像分类的论文:CMT(CVPR2022),MaxViT(ECCV2022),MaxViT(ECCV2022),MPViT(CVPR2022)。主要是说明Transformer的局限性,然后利用CNN的优势去弥补和结合。原创 2023-07-28 17:42:01 · 7127 阅读 · 0 评论 -
【ICCV2023】Scale-Aware Modulation Meet Transformer
本文提出了一种新的视觉变换器——尺度感知调制变换器(Scale-Aware Modulation Transformer, SMT),通过将CNN和ViT相结合,可以有效地处理各种下游任务。多头混合卷积(MHMC)模块,该模块可以捕捉多尺度特征并扩展感受野。规模感知聚合(SAA)模块,该模块重量轻但有效,能够实现不同头部的信息融合。通过利用这两个模块,卷积调制得到了进一步增强。原创 2023-07-25 10:06:43 · 4649 阅读 · 0 评论 -
【图像分类】CNN + Transformer 结合系列.1
介绍三篇结合使用CNN+Transformer进行学习的论文:CvT(ICCV2021),Mobile-Former(CVPR2022),SegNetr(arXiv2307).原创 2023-07-24 16:58:54 · 9784 阅读 · 0 评论 -
【图像任务】Transformer系列.3
本文介绍3篇改进Transformer以实现不同图像任务的工作:少样本医学图像分割CAT-Net(arXiv2023),高效图像重建等任务GRL(CVPR2023),轻量视觉Transformer中的局部信息思考CloFormer(arXiv2023)。原创 2023-06-13 23:24:30 · 3744 阅读 · 2 评论 -
【IPMI 2023】Rethinking Boundary Detection in Deep Learning Models for Medical Image Segmentation
本文提出一种新颖的网络架构CTO,即Convolution,Transformer和Operator,通过结合卷积神经网络、视觉 Transformer 和显式边界检测操作,实现高精度的图像分割,并在准确性和效率之间保持最佳平衡。CTO 遵循标准的编码器-解码器分割范式,其中编码器网络采用流行的 CNN 骨干结构来捕捉局部语义信息,并使用轻量级的 ViT 辅助网络来整合远距离依赖关系。为了增强边界的学习能力,本文进一步提出了一种基于边界引导的解码器网络,利用专用边界检测操作得到的边界掩模作为显式监原创 2023-06-12 11:53:18 · 2903 阅读 · 5 评论 -
【AAAI2023】Head-Free Lightweight Semantic Segmentation with Linear Transformer
本文提出了一种名为Adaptive Frequency Transformer(AFFormer)的语义分割架构。AFFormer采用并行架构来利用原型表示(prototype representations)作为特定可学习的局部描述,其取代了解码器并在高分辨率特征上保留丰富的图像语义。虽然删除了解码器能够压缩大部分的推理计算,但并行架构的精度仍受到低计算资源的限制。因此,我们采用异构运算符(CNN和Vision Transformer)进行像素嵌入(pixel embedding)和原型表示。转载 2023-06-13 23:20:24 · 2761 阅读 · 0 评论 -
【ECCV2022】DaViT: Dual Attention Vision Transformers
以往的工作一般是,在分辨率、全局上下文和计算复杂度之间权衡:像素级和patch级的self-attention要么是有二次计算成本,要么损失全局上下文信息。进行self-attention,此时空间维度(HW)定义了tokens的数量,而channel维度(C)定义了tokens的特征大小,这其实也是ViT最常采用的方式;进行self-attention,这和前面的处理完全相反,此时channel维度(C)定义了tokens的数量,而空间维度(HW)定义了tokens的特征大小。原创 2023-06-05 16:25:49 · 1941 阅读 · 1 评论 -
【论文笔记】Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial
由于复杂的注意力机制和模型设计,大多数现有的ViTs在现实的工业部署场景中不能像CNNs那样高效地执行,例如。TensorRT和CoreML。这带来了一个明显的挑战视觉神经网络能否设计为与CNN一样快的推理和与ViT一样强大的性能?最近很多工作试图设计混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。为了结束这些,本文作者提出了在现实工业场景中有效部署的,即Next-ViT,从延迟/准确性权衡的角度来看,它在CNN和ViT中均占主导地位。在这项工作中,分别开发了(NCB)和(NTB(和、...原创 2022-07-24 17:53:31 · 2811 阅读 · 0 评论 -
【arXiv2022】Efficient Multi-order Gated Aggregation Network
自从Vision Transformers(ViT)取得成功以来,对Transformers架构的探索也引发了现代ConvNets的复兴。在这项工作中,通过交互复杂性的角度来探索DNN的表示能力。经验表明,交互复杂性是视觉识别的一个容易被忽视但又必不可少的指标。因此,本文作者提出了一个新的高效ConvNet系列,名为MogaNet,以在基于ConvNet的纯模型中进行信息上下文挖掘,并在复杂度和性能方面进行了更好的权衡。转载 2022-12-10 16:24:54 · 604 阅读 · 0 评论 -
【论文笔记】NestedFormer: Nested Modality-Aware Transformer for Brain Tumor Segmentation
多模态磁共振成像通过提供丰富的互补信息,在临床实践中经常被用于诊断和研究脑肿瘤。以前的多模态MRI分割方法通常是在网络的早期/中期通过串联(cat)多模态MRI来执行模态融合,这很难探索模态之间的非线性依赖关系。论文提出一种新的嵌套的模态感知transformer(NestedFormer)来显式地探索用于脑肿瘤分割的多模态磁共振成像的模态内和模态间的关系。原创 2022-11-14 15:13:48 · 1035 阅读 · 3 评论 -
【论文笔记】Transformers in Remote Sensing: A Survey 中的相关论文链接
【综述】Transformers in Remote Sensing: A Survey 链接https://blog.csdn.net/m0_61899108/article/details/127628888的相关transformer论文汇总https://github.com/VIROBO-15/Transformer-in-Remote-Sensing原创 2022-11-07 19:40:54 · 1870 阅读 · 1 评论 -
【图像任务】Transformer系列.2
两篇改进Transformer结构的论文:MAN(arXiv2022),ScalableViT(NeurIPS2022)原创 2023-06-05 11:27:33 · 2954 阅读 · 0 评论 -
【图像任务】Transformer系列.1
介绍几篇改进Transformer模型实现亮度增强、图像重建的任务:LLFormer(AAAI2023),DLSN(TPAMI2023),CAT(NeurIPS2022)。原创 2023-06-04 20:30:19 · 1972 阅读 · 1 评论 -
【CVPR2023】CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fus
CDDFuse本文亮点:结合CNN和当前火爆的Transformer;将特征解耦的思想引入了图像融合,将跨模态信息分解为共有信息和特有信息,类似于DRF等融合模型;两阶段训练法,第一阶段采用的输入和输出都是源图像的自监督方式,SD-Net、SFA-Fuse采用了这类思想;用高级视觉任务验证了融合效果。转载 2023-06-11 16:24:05 · 9642 阅读 · 13 评论 -
【医学图像】图像分割系列.4
介绍几篇使用Transformer结构做医学图像分割的论文:CASTformer(NeuralPS2022),PHNet(arXiv2023)。原创 2023-06-01 19:01:34 · 1783 阅读 · 0 评论 -
【arXiv2023】SpectFormer: Frequency and Attention is what you need in a Vision Transformer
ViT已成功应用于图像识别任务。在文本模型中,既有类似于原始工作的基于多头自我注意的(ViT,DeIT),也有最近基于光谱层的(Fnet,GFNet,AFNO)。受光谱和层次Transformer相关工作的启发,论文观察到光谱和多头注意力层的结合能提供更好的Transformer架构,因此提出SpectFormer,使用傅立叶变换实现的光谱层来捕捉架构初始层中的相关特征。此外,在网络的深层使用多头自我注意。原创 2023-05-31 22:12:18 · 2022 阅读 · 1 评论 -
【论文笔记】Contextual Transformer Networks for Visual Recognition
论文题目:Contextual Transformer Networks for Visual Recognition收录:CVPR2021论文地址:[2107.12292] Contextual Transformer Networks for Visual Recognition (arxiv.org)项目地址:GitHub - JDAI-CV/CoTNet: This is an official implementation for "Contextual Transformer Networks转载 2022-07-08 23:31:13 · 1821 阅读 · 6 评论 -
DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Seg
由于为语义分割标注真实图像是一个代价昂贵的过程,因此可以用更容易获得的合成数据训练模型,并在不需要标注的情况下适应真实图像。在无监督域适应(UDA)中研究了这一过程。尽管有大量的方法提出了新的适应策略,但它们大多是基于比较经典的网络架构。由于目前网络结构的影响尚未得到系统的研究,作者首先对UDA的不同网络结构进行了基准测试,并揭示了在UDA语义分割方面的潜力。在此基础上提出了一种新的UDA方法DAFormer。DAFormer的网络结构包括一个编码器和一个多级上下文感知特征融合解码器。转载 2022-11-01 00:50:21 · 722 阅读 · 0 评论 -
深度学习入门Transformer
Transformer在许多的人工智能领域,如自然语言处理(Natural Language Processing, NLP)、计算机视觉(Computer Vision, CV)和语音处理(Speech Processing, SP)取得了巨大的成功。因此,自然而然的也吸引了许多工业界和学术界的研究人员的兴趣。到目前为止,已经提出了大量基于Transformer的相关工作和综述。本文基于邱锡鹏[1]老师团队近日所发表的一篇综述[2]为基础,详细的解读Transformer的来龙去脉,同时为大家介绍近期一些转载 2023-04-01 11:17:08 · 460 阅读 · 0 评论 -
Transformer输入嵌入:Input Embedding
学习 Transformer 该从那里起步呢?首先,当然是膜拜CV大佬,向大佬学习,这位大佬分析细致入理,写文幽默风趣,本文也是从这位大佬这里搬过来的(侵删)。这是大佬的知乎号:CW不要無聊的風格 。去繁就简,咱们直接开始!转载 2021-11-25 13:16:41 · 6233 阅读 · 4 评论