![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 94
*pprp*
GiantPandaCV公众号作者,研究方向automl,nas
展开
-
Compact-Transformer:缓解数据不足带来的问题
【GiantPandaCV导语】本文致力于解决ViT在小型数据集上性能不够好的问题,这个问题非常实际,现实情况下如果确实没有大量数据集,同时也没有合适的预训练模型需要从头训练的时候,ViT架构性能是不如CNN架构的。这篇文章实际上并没有引入大量的卷积操作,通过修改patch size,以及使用SeqPool的方法就可以取得不错的成绩。引言ViT不适用于小数据集,但是由于很多领域中数据量大小是非常有限的,为了打破ViT数据匮乏下性能不好,只能应用于大数据集的问题。本文提出使用正确的尺寸以及tokeniz原创 2022-03-21 20:49:32 · 3778 阅读 · 0 评论 -
当可变形注意力机制引入Vision Transformer
【GiantPandaCV导语】通过在Transformer基础上引入Deformable CNN中的可变性能力,在降低模型参数量的同时提升获取大感受野的能力,文内附代码解读。引言Transformer由于其更大的感受野能够让其拥有更强的模型表征能力,性能上超越了很多CNN的模型。然而单纯增大感受野也会带来其他问题,比如说ViT中大量使用密集的注意力,会导致需要额外的内存和计算代价,特征很容易被无关的部分所影响。而PVT或者Swin Transformer中使用的sparse attention是数原创 2022-01-22 21:41:57 · 1855 阅读 · 0 评论 -
CoAtNet: 90.88% Paperwithcode榜单第一,层层深入考虑模型设计
【GiantPandaCV导语】CoAt=Convolution + Attention,paperwithcode榜单第一名,通过结合卷积与Transformer实现性能上的突破,方法部分设计非常规整,层层深入考虑模型的架构设计。引言Transformer模型的容量大,由于缺乏正确的归纳偏置,泛化能力要比卷积网络差。提出了CoAtNets模型族:深度可分离卷积与self-attention能够通过简单的相对注意力来统一化。叠加卷积层和注意层在提高泛化能力和效率方面具有惊人的效果方法这部原创 2022-01-08 18:26:07 · 2696 阅读 · 0 评论 -
CeiT:训练更快的多层特征抽取ViT
【GiantPandaCV导语】来自商汤和南洋理工的工作,也是使用卷积来增强模型提出low-level特征的能力,增强模型获取局部性的能力,核心贡献是LCA模块,可以用于捕获多层特征表示。引言针对先前Transformer架构需要大量额外数据或者额外的监督(Deit),才能获得与卷积神经网络结构相当的性能,为了克服这种缺陷,提出结合CNN来弥补Transformer的缺陷,提出了CeiT:(1)设计Image-to-Tokens模块来从low-level特征中得到embedding。(2)将Tran原创 2022-01-08 16:20:18 · 1969 阅读 · 0 评论 -
CvT: 如何将卷积的优势融入Transformer
【GiantPandaCV导语】与之前BoTNet不同,CvT虽然题目中有卷积的字样,但是实际总体来说依然是以Transformer Block为主的,在Token的处理方面引入了卷积,从而为模型带来的局部性。最终CvT最高拿下了87.7%的Top1准确率。引言CvT架构的Motivation也是将局部性引入Vision Transformer架构中,期望通过引入局部性得到更高的性能和效率权衡。因此我们主要关注CvT是如何引入局部性的。具体来说提出了两点改进:Convolutional token原创 2022-01-01 16:09:29 · 1744 阅读 · 3 评论 -
BoTNet:Bottleneck Transformers for Visual Recognition
【GiantPandaCV导语】基于Transformer的骨干网络,同时使用卷积与自注意力机制来保持全局性和局部性。模型在ResNet最后三个BottleNeck中使用了MHSA替换3x3卷积。属于早期的结合CNN+Transformer的工作。简单来讲Non-Local+Self Attention+BottleNeck = BoTNet引言本文的发展脉络如下图所示:实际上沿着Transformer Block改进的方向进行的,与CNN架构也是兼容的。具体结构如下图所示:两者都遵循了Bott原创 2021-12-27 14:44:35 · 674 阅读 · 4 评论 -
CNN、Transformer、MLP的经验性分析
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP【GiantPandaCV导语】ViT的兴起挑战了CNN的地位,随之而来的是MLP系列方法。三种架构各有特点,为了公平地比较几种架构,本文提出了统一化的框架SPACH来对比,得到了具有一定insight的结论。背景近期Transformer MLP系列模型的出现,增加了CV领域的多样性,MLP-Mixer的出现表明卷积或者注意力都不是模型性能优异原创 2021-12-24 10:20:41 · 2937 阅读 · 3 评论 -
DeiT:使用Attention蒸馏Transformer
题目:Training data-efficient image transformers & distillation through attention【GiantPandaCV导语】Deit是一个全Transformer的架构,没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练,引入了一种教师-学生的训练策略,提出了token-based distillation。有趣的是,这种训练策略使用卷积网络作为教师网络进行蒸馏,能够比使用transformer架构的网络作为教师取得更好的效果原创 2021-09-24 10:18:44 · 1098 阅读 · 0 评论