Transformer
文章平均质量分 90
zzl_1998
XMU
展开
-
[ICLR‘22] DAB-DETR: Dynamic Anchor Boxes Are Better Queries for DETR
本文的两个贡献:1)针对DETR,提出一种全新query范式:dynamic anchor boxes;2)深入分析DETR中query的作用。使用4D box 坐标有两个作用,很像soft ROI Pooling:1)明确的位置先验,可以提高query-to-feature相似度,减缓训练收敛慢的问题;2)可以基于box的宽高建模positional attention map;在ResNet50-DC5作为backbone的情况下,训练50-epochs,可以取得45.7% AP。原创 2023-03-06 17:02:05 · 590 阅读 · 1 评论 -
[ICLR‘23] Token Merging: Your ViT But Faster
提出Token Merging (ToMe),无需额外训练即可提高ViT-based模型的训练和推理速度;ToMe通过匹配算法,将transformer中的相似token聚合在一起;在推理时加入ToMe:对图片数据,ToMe可以提高ViT-L@512和ViT-H@518两倍的吞吐量;对视频数据,ToMe可以提高ViT-L 2.2倍的吞吐量,仅降低0.2-0.3%准确率;在训练时加入ToMe,对视频数据,ToMe可以缩短MAE fine-tuning两倍时间;原创 2022-12-12 23:19:54 · 2543 阅读 · 0 评论 -
【Backbone: MLP-Mixer】MLP-Mixer: An all-MLP Architecture for Vision
AbstractCNN和attention-based结构很棒,但不是必须的。 本文提出MLP-Mixer, 一种基于多层感知机(MLPs)的框架。包含两种layers:(1)channel-mixing MLPs:应用在image patches上,融合某个位置多个通道的特征;(2)token-mixing MLPs:应用在across patches上,融合某个通道多个位置的信息。 效果不错的条件:在大型数据集上训练;或用modern regularization schemesI...原创 2021-05-06 16:31:20 · 384 阅读 · 0 评论 -
【Transformer】Self-Attention with Relative Position Representations及实现pytorch代码
在Transformer中加入可训练的embedding编码,使得output representation可以表征inputs的时序/位置信息。这些embedding vectors在计算输入序列中的任意两个单词i,j之间的key和value是被加入其中。embedding vector用于表示单词i,j之间的距离,因此命名为“相对位置表征”(Relative Postiion Representation)。Self-Attention输入序列xi经过Self-Attention之后输...原创 2021-03-09 01:45:03 · 1649 阅读 · 0 评论 -
【Transformer】Transformer-Encoder Detector Module: Using Context to Improve Robustness to Adversarial
ICPR 2020,一个C类会议摘要:CNN容易受FFF,UAP等通用扰动的影响。本文提出Transformer-Encoder Detector Module,它可以用在object detector上,来改善模型对目标的标记(labeling),改善模型面对对抗攻击的鲁棒性。该模块可以从场景中提取的上下文和视觉特征,并编码到模型中。引言目标检测经过多年的发展,有了巨大的进步,但在面对一些肉眼不可见的扰动时,模型表现出脆弱性,这种扰动被称为对抗攻击,同时,一些攻击模式还可以是独立...原创 2021-03-05 17:22:30 · 366 阅读 · 0 评论 -
【Transformer】RANDOM FEATURE ATTENTION
ICLR 2021 Spotlight:https://openreview.net/forum?id=QtTKTdVrFBB摘要:Transformer的核心是attention function,它建模了输入在每个时间间隔之间的关系。由于attention的二次时间和空间复杂度,导致它不能有效处理长序列。本文提出RFA,一种线性时间和空间复杂度的注意力机制,使用随机特征去近似softmax function,并且探索它在transformers中的应用。RFA通过可选的门控机制(g.原创 2021-03-04 23:19:07 · 1842 阅读 · 2 评论 -
【Transformer】基础结构和Encoder部分的pytorch代码
参考:https://www.bilibili.com/video/BV1J441137V6?from=search&seid=101085327182668558881. Self-attentionq: query (to match others)k: key (to be matched)v: information to be extractedself-attention是拿每个query q去对每个key k做attention,attention表示两个向量有多匹原创 2021-03-02 22:32:21 · 1801 阅读 · 0 评论 -
【Transformer】Bottleneck Transformers for Visual Recognition
摘要本文提出一种backbone:BoTNet,整合self-attention适用于多种视觉任务,包括图片分类、目标检测和实例分割的网络。BoTNet将ResNet最后三个bottleneck blocks的空间卷积替换为global self-attention。在减少参数量的同时,提高了在目标检测和实例分割上的性能。使用Mask R-CNN框架的BoTNet,在COCO实例分割数据集上,达到了44.4% Mask AP和49.7%Box AP,超过了ResNeSt。将BoTNet用于图..原创 2021-03-01 09:27:58 · 1453 阅读 · 1 评论 -
【Feature Denosing】Feature Denoising for Improving Adversarial Robustness
摘要对图像分类系统的对抗攻击给卷积网络带来了挑战和理解他们的机会。对抗扰动使得网络提取的特征包含噪声。受这个观察启发,我们执行feature denoising具体来说,本文使用non-local means或其他滤波器模块来去噪。当和对抗训练结合时,我们的方法在白盒和黑盒攻击中取得了SOTA。在ImageNet上,10-iteration PGD白盒攻击,前人工作是27.9%,我们提高到了55.7%,即使是在2000-iteration PGD白盒攻击,我们的方法叶取得了42.6%的正确率..原创 2021-02-25 11:00:31 · 775 阅读 · 0 评论 -
【Transformer 02】End-to-End Object Detection with Transformers
Abstract本文提出一种新方法,将目标检测视作集合预测问题,并将它流程化,去除人工设计部分,例如NMS和anchor generation(这些会将我们对任务的先验知识编码进模型)。新框架的主体部分是DEtection TRansformer,这种基于集合的全局损失,会通过二部图匹配和transformer的encoder-decoder框架,产生唯一的预测。给定一个固定学习好的object queries小集合,DETR推理目标和全局图片之间的上下文关系,并行的输出最后的预测集合。该模型非常简原创 2020-12-06 20:45:26 · 467 阅读 · 0 评论 -
【Transformer 01】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
AbstractTransformer框架是自然语言处理的常用结构,但它在计算机视觉上的应用较少。在视觉中,注意力通过和CNN一起使用,或在保持整体结构不变的情况下,替换CNN的某个部分。本文展示了依赖CNN是不必须的,并且在分类任务中,直接对一系列图片块使用transformer是可行的。当在大量数据上预训练,然后转移到多个大中型或小型图像识别benchmarks(ImageNet, CIFAR-100, VTAB等)。与sota卷积网络相比,Vision Transformer (ViT)获得更原创 2020-12-06 11:33:04 · 792 阅读 · 0 评论