2023年4月份上新的Transformer模型设计系列论文(附下载链接)

来源:投稿 作者:王老师
编辑:学姐

论文1

论文标题:
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention**
滑动Transformer:具有局部自注意的分层视觉Transformer

论文链接:https://arxiv.org/pdf/2304.04237.pdf
代码链接:https://github.com/LeapLabTHU/Slide-Transformer

发表在CVPR 2023

自注意机制是视觉Transformer(ViT)最近进展的一个关键因素,它能够从全局上下文中进行自适应特征提取。然而,现有的自注意方法要么采用稀疏全局注意,要么采用窗口注意来降低计算复杂度,这可能会影响局部特征学习,或者受到一些手工设计的影响。相比之下,局部注意力将每个查询的感受野限制在其自己的相邻像素,它同时享受卷积和自注意力的好处,即局部归纳偏差和动态特征选择。

然而,当前的局部注意力模块要么使用低效的Im2Col函数,要么依赖于特定的CUDA内核,这些内核很难推广到没有CUDA支持的设备。在本文中,我们提出了一种新的局部注意力模块Slide attention,它利用常见的卷积运算来实现高效率、灵活性和可推广性。具体来说,我们首先从一个新的基于行的角度重新解释基于列的Im2Col函数,并使用深度卷积作为一种有效的替代。在此基础上,我们提出了一种基于重新参数化技术的变形移位模块,该模块将固定的键/值位置进一步放宽到局部区域中的变形特征。通过这种方式,我们的模块以高效和灵活的方式实现了局部注意力范式。大量实验表明,我们的滑动Transformer模块适用于各种先进的Vision Transformer模型,并与各种硬件设备兼容,并在Benchmark上实现了持续改进的性能优势。

论文2

论文标题:
Token Boosting for Robust Self-Supervised Visual Transformer Pre-training
用于鲁棒自监督视觉Transformer预训练的Token提升

论文链接:https://arxiv.org/pdf/2304.04175v1.pdf
代码链接:暂未开源

发表在CVPR 2023

使用大规模未标记数据进行学习已成为预训练视觉Transformer(VT)的强大工具。然而,先前的工作往往忽略了在现实世界的场景中,输入数据可能被破坏和不可靠。在这种损坏的数据上预训练VT可能具有挑战性,尤其是当我们通过掩蔽自动编码方法进行预训练时,在这种情况下,输入和掩蔽的“地面实况”目标都可能不可靠。为了解决这一限制,我们引入了Token提升模块(TBM)作为VT的即插即用组件,它有效地允许VT在掩蔽自动编码预训练期间学习提取干净和稳健的特征。我们提供了理论分析,以表明TBM如何通过更稳健和可推广的表示来改进模型预训练,从而有利于下游任务。我们进行了大量实验来分析TBM的有效性,在四个损坏的数据集上的结果表明,TBM持续提高了下游任务的性能

论文3

论文标题:
PSLT: A Light-weight Vision Transformer with Ladder Self-Attention and Progressive Shif

论文链接:https://arxiv.org/pdf/2304.03481.pdf
代码链接:https://isee-ai.cn/wugaojie/PSLT.html.

发表于TPAMI 2023

视觉Transformer(ViT)由于其建模长期依赖性的能力,在各种视觉任务中显示出巨大的潜力。然而,ViT需要大量的计算资源来计算全局自注意。在这项工作中,我们提出了一种具有多个分支和渐进移位机制的梯形自注意块,以开发一种需要较少计算资源(例如,相对较少的参数和FLOP)的轻量级变换器主干,称为渐进移位梯形变换器(PSLT)。首先,梯形自注意块通过对每个分支中的局部自注意进行建模来降低计算成本。同时,提出了渐进转移机制,通过为每个分支建模不同的局部自我注意并在这些分支之间相互作用,来扩大梯形自我注意块中的感受野。第二,梯形自注意块的输入特征沿着每个分支的通道维度被平均分割,这显著降低了梯形自关注块的计算成本(参数和FLOP的数量接近13),然后通过像素自适应融合来协作这些分支的输出。因此,具有相对少量参数和FLOP的梯形自注意块能够对长距离相互作用进行建模。基于梯形自注意块,PSLT在图像分类、目标检测和人物重新识别等视觉任务上表现良好。在ImageNet 1k数据集上,PSLT以9.2M个参数和1.9G FLOP实现了79.9%的前1精度,这与现有的几个具有超过20M个参数和4G FLOP的模型相当。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“CVPR”获取CV方向顶会必读论文

码字不易,欢迎大家点赞评论收藏!

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
transformer模型之一是滑动Transformer,它是一种具有局部自注意力的分层视觉Transformer。该模型通过滑动窗口的方式在输入图像上进行特征提取和自注意力计算,从而在处理大尺寸图像时具有更高的效率和可扩展性。另外,还有基于空间注意力和跨模态注意力的Transformer模型,如T_tsa和T_cma,它们可以在给定高级特征的基础上进行特征融合和跨模态信息传递。此外,还有一种名为PSLT的轻量级视觉Transformer模型,它采用梯级自注意力和渐进位移技术,以减少计算复杂性,提高模型的效率。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [20234月份Transformer模型设计系列论文下载链接)](https://blog.csdn.net/weixin_42645636/article/details/130245997)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [MICCAI2022 | NestFormer用于脑肿瘤分割的嵌套模态感知的Transformer](https://blog.csdn.net/qq_45807235/article/details/128321019)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值