transformer
文章平均质量分 87
注意力机制
樱花的浪漫
梦想还是要有的,更要成为一名不懈追求梦想的人
展开
-
ConvNext详解
MAE的自监督框架是,首先对图像进行随机的掩蔽,然后使用神经网络尝试重构掩蔽部分,并与原图进行对比,计算损失。原创 2024-03-22 16:26:05 · 1333 阅读 · 2 评论 -
论文精读:PVT v2: Improved Baselines with Pyramid Vision Transformer
论文地址:https://arxiv.org/abs/2106.13797源码地址:https://github.com/whai362/PVT 在这项工作中,作者改进了PVT v1,提出了新的基线,包括(1)线性复杂度注意层,(2)重叠patch嵌入,(3)卷积前馈网络。通过这些修改,PVT v2将PVT v1的计算复杂度降低到线性,并在分类、检测和分割等基本视觉任务上取得了显著的改进。 PVT v1 [33]有三个主要限制: (1)与ViT [8]类似,当处理高分辨率输入(原创 2022-11-12 19:22:41 · 1522 阅读 · 0 评论 -
Swin transformer v2和Swin transformer v1源码对比
在此只解析v1和v2的区别。原创 2022-11-10 20:29:51 · 2770 阅读 · 4 评论 -
论文精读:Swin Transformer V2: Scaling Up Capacity and Resolution
论文地址:https://arxiv.org/pdf/2111.09883.pdf 代码地址: GitHub - microsoft/Swin-Transformer: This is an official implementation for "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows". 本篇论文主要致力于解决大型视觉模型的训练和应用中的三个主要问题,包括训练的不稳定性、训练前和微调之间原创 2022-11-09 16:57:41 · 1259 阅读 · 0 评论 -
PVT论文精读:Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout Convolutions
VIT很难用于密集检测任务,作者提出了PVT,(1)不同于产生低分辨率输出和引起高计算和内存成本的VIT,PVT不仅可以训练密集分区的图像来实现高输出分辨率,也使用图像金字塔来减少大型特征地图的计算。(2) PVT继承了CNN和transformer的优点,使其成为各种transformer架构的视觉任务的统一骨干,可以作为CNN骨干的直接替代。图3描述了PVT的概述。结合我们的PVT和DETR,我们可以构建一个端到端目标检测系统,而不需要卷积和手工制作的组件,如密集的锚点和非最大抑制(NMS)。原创 2022-11-05 11:25:48 · 2100 阅读 · 0 评论 -
论文精读:Axial-DeepLab: Stand-Alone Axial-Attention forPanoptic Segmentation
卷积利用局部性来提高效率,但代价是缺少长期上下文。自我注意已经被用来通过非局部的交互作用来增强cnn。最近的研究证明,通过将注意力限制在一个局部区域,可以通过叠加自注意层来获得一个完全的注意网络。原创 2022-10-30 11:01:23 · 1982 阅读 · 0 评论 -
论文精读:Stand-Alone Self-Attention in Vision Models
论文地址:https://proceedings.neurips.cc/paper/2019/file/3416a75f4cea9109507cacd8e2f2aefc-Paper.pdf 提出问题:注意力机制是否可以成为视觉模型的独立原始元素,而不仅仅是卷积之上的增强。 作者验证了自注意力机制确实可以是一个有效的独立层。用应用于ResNet模型的自注意形式替换所有空间卷积实例的简单过程,产生了一个完全自我注意的自注意模型,并且取得了较好的性能。 在这项工作中,我原创 2022-10-29 11:29:57 · 2137 阅读 · 2 评论 -
DeiT论文精读
论文地址:https://arxiv.org/abs/2012.12877v2 transformer需要使用大型基础设施对数亿张图像进行了预训练,从而限制了它们的使用。 在这项工作中,作者只在图像上训练transformer。在一台电脑上训练他们不到3天。基于vision transformer(86M参数)在没有外部数据的情况下,在ImageNet上达到了83.1%。 更重要的是,作者引入了一种专门针对transformer的teacher-student策略。它依赖于一个蒸原创 2022-10-12 15:46:02 · 1286 阅读 · 2 评论 -
TNT:Transformer in transformer论文精读
论文地址:https://arxiv.org/abs/2103.00112源码地址:GitHub - huawei-noah/Efficient-AI-Backbones: Efficient AI Backbones including GhostNet, TNT and MLP, developed by Huawei Noah's Ark Lab. vision transformer首先将输入图像划分为几个局部patch,然后计算表示及其关系。由于自然图像复杂度高,细节丰富,颜色信息丰原创 2022-10-09 11:58:10 · 1277 阅读 · 0 评论 -
CoaT:Co-Scale Conv-Attentional Image Transformers详解
论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Co-Scale_Conv-Attentional_Image_Transformers_ICCV_2021_paper.pdf 作者提出了共尺度的共注意图像CoaT,一种基于transformer的图像分类器,具有共尺度和conv-attentional机制。首先,共尺度机制在单个尺度上保持transformer编码器分支的完整性,同时允许在不同尺度上特征进行融合;作者设原创 2022-10-05 21:23:25 · 1304 阅读 · 0 评论 -
MPViT: Multi-Path Vision Transformer for Dense Prediction源码详解
2.在里面导入模块3.在配置文件里使用它。原创 2022-10-05 15:36:12 · 1042 阅读 · 1 评论 -
MPViT : Multi-Path Vision Transformer for Dense Prediction详解
论文地址:https://arxiv.org/pdf/2112.11010.pdf 密集的计算机视觉任务,如目标检测和分割,需要有效的多尺度特征表示,以检测或分类不同大小的物体或区域。ViTs构建了一个简单的多阶段结构(即精细到粗糙),用于使用单尺度patch的多尺度表示。而作者以不同于现有变压器的视角,探索了多尺度的patch embeding和多路径结构,构建了MPViT。MPViT通过多尺度卷积patch embeding,然后,将不同尺度的tokens通过多条路径独立地输入trans原创 2022-10-03 18:02:26 · 1252 阅读 · 0 评论 -
Deformable detr源码分析
对于decoder 的query,首先初始化300*512为向量,分为300*256维的query和300*256的position 向量,将position向量经过。mask:创建一个与图像同样大小的mask,同时考虑到padding,对mask进行填充,然后对mask进行下采样,生成各层级特征图对应的mask。对300维的query,做相同的偏移,与经过偏移的ecoder的输出做Attention的计算。然后,对各层级的特征图进行展平,拼接成一个向量,并保留每个层级的特征图的索引。...原创 2022-08-31 11:20:32 · 1471 阅读 · 3 评论 -
Mobile-Former: Bridging MobileNet and Transformer详解
实现transformer全局特征与CNN局部特征的融合,在较低的成本内,创造一个高效的网络。原创 2022-08-26 17:12:38 · 2219 阅读 · 0 评论 -
可变形的Tranformer算法详解与源码——DAT:Vision Transformer with Deformable Attention
和分别表示变形的键嵌入和值嵌入。具体来说,我们将采样函数(·;·)设置为一个双线性插值,使其可微:其中和索引了上的所有位置。由于g只在最接近的4个积分点上不为零,因此它简化了等式(8)到4个地点的加权平均值。与现有的方法类似,我们对q、k、v进行多头注意,并采用相对位置偏移r。注意头的输出表述为:其中对应于之前的工作[26]之后的位置嵌入,同时有一些适应。细节将在本节后面解释。每个头的特征被连接在一起,并通过Wo进行投影,得到最终的输出z为等式(3)....原创 2022-08-26 11:30:55 · 1861 阅读 · 0 评论 -
DEFORMABLE DETR详解
transformer组件在处理图像特征图中的不足。在初始化时,注意模块对特征图中的所有像素施加了几乎一致的注意权重。长时间的训练周期是为了学习注意权重,以关注稀疏的有意义的位置。另一方面,transformer编码器中的注意权值计算是二次计算w.r.t.像素数。因此,处理高分辨率的特征映射具有非常高的计算和内存复杂性。原创 2022-08-22 19:21:54 · 18802 阅读 · 0 评论 -
论文精读:DEFORMABLE DETR: DEFORMABLE TRANSFORMERSFOR END-TO-END OBJECT DETECTION
大多数工作(刘等,2018a;帕玛等,2018;儿童等,2019;黄等,2019;何等,20109;王等,2020a;胡等,2019;拉马钱德兰等,2019;邱等人,2019;贝尔塔吉等人,2020年;安斯利等人,2020年;Zaheer等人,2020年)遵循这一范式。虽。原创 2022-08-22 15:17:11 · 2089 阅读 · 0 评论 -
swin_transformer源码详解
多头注意力:首先构造维度为256, 4, 49, 32的q,k,v辅助向量,256表示有256个特征图,4表示有4个head,49表示有49个tokens,32表示,每个头32个向量,然后经过多头注意力的计算,其中,会加入相对位置编码。输入维度为4,3136,128的序列x,首先将其维度变换为4,56,56,128,再经过维度变换,将维度变成 256, 49, 128,即表示,有256个特征图,每个特征图有49个tokens,每个token是128维的向量。最后将窗口再偏移回去。...原创 2022-08-17 11:54:05 · 2870 阅读 · 1 评论 -
swin transformer详解
在计算时,只需要计算自己窗口的,其他的都都是无关的,比如说对于7,1,我们只取对角线上自己需要的结果,其他部分全部mask掉,让其值为负无穷即可,最后再经过softmax操作,输出结果同样为(56,56,96),计算完特征后需要对图像进行还原,也就是还原平移。通过得到的attention计算得到新的特征(64,49,96),总共64个窗口,每个窗口7*7的大小,每个点对应96维向量,window_reverse就是通过reshape操作还原回去(56,56,96)输入:图像数据(224,224,3)...原创 2022-08-14 17:52:09 · 1506 阅读 · 0 评论 -
论文精读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
本文提出了一种新的,称为它能够作为计算机视觉的通用骨干网络。从语言到视觉的挑战来自于这两个领域之间的差异,比如视觉实体规模的变化很大,以及图像中像素比文本中单词的高分辨率。...原创 2022-08-14 15:16:49 · 1739 阅读 · 0 评论 -
detr目标检测算法源码详解
对于每一批次的图像,首先找出每一批次图片的H,W的最大值Hmax,Wmax,然后将原始图像填充为3*Hmax*Wmax大小,并将图像部分置为False,填充部分置为True.最后将图像数据tensor和mask打包为nesttensor格式(从nesttensor取出tensors和mask只需要调用方法tensor_list.tensors、tensor_list.mask即可)......原创 2022-08-14 09:02:07 · 3177 阅读 · 2 评论 -
transformer系列——detr详解
先来个CNN得到各Patch作为输入,再使用transformer做编码和解码编码方式跟VIT基本一样,重在在解码,Detr假设一张图片中最多有100个物体,直接预测100个坐标框。原创 2022-08-12 11:13:50 · 1348 阅读 · 0 评论 -
论文精读:detr:End-to-End Object Detection with Transformers
我们的方法简化了检测管道,有效地消除了许多手工设计的组件的需要,如非最大抑制程序或锚定生成,显式地编码了我们对任务的先验知识。新框架的主要成分,称为DEtection TRansformer或DETR,是一个基于集合的全局损失,通过二部匹配迫使独特的预测,以及transformer encoder-decoder架构。给定一组固定的小型学习对象查询,DETR对对象和全局图像上下文之间的关系进行推理,以直接并行输出最终的预测集。与许多其他现代探测器不同,这个新模型在概念上很简单,不需要专门的库。...原创 2022-08-11 17:33:35 · 788 阅读 · 0 评论 -
VIT 源码详解
参数说明:数据集: --name cifar10-100_500 --dataset cifar10哪个版本的模型: --model_type ViT-B_16预训练权重: --pretrained_dir checkpoint/ViT-B_16.npz 对于图像编码,以VIT - B/16为例,首先用卷积核大小为16*16、步长为16的卷积,对图像进行变换,此时图像维度变成16 * 768 * 14 * 14,再变换维度为[16, 19原创 2022-08-10 19:47:33 · 3298 阅读 · 2 评论 -
VIT transformer详解
内部transformer将外部transformer的窗口,在进一步重组为多个超像素,重组为新的向量,比如说:外部transformer将图像拆分为16*16*3的窗口,内部tranformer再将其拆分为4*4的超像素,此时小窗口大小为4*4*48,这样每一个patch就整合了多个channels的信息。结论:编码有用,但是怎么编码影响不大,干脆用简单的得了,2D(分别计算行和列的编码,然后求和)的效果还不如1D的,每一层都加共享的位置编码也没啥太大用。,将内部向量与外部向量再相加。......原创 2022-08-09 11:47:16 · 4951 阅读 · 5 评论 -
论文精读:VIT - AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
自我注意允许ViT整合整个图像的信息,即使是在最低的层。我们将研究该网络在多大程度上利用了这种能力。具体来说,我们根据注意力权重计算信息在被整合过的图像空间中的平均距离(图7,右)。这种“注意距离”类似于cnn中的接受野大小。我们发现,一些头部关注了已经在最低层的大部分图像,这表明模型确实使用了全局集成信息的能力。其他的注意力头脑在低层的注意距离一直很小。这种高度局部化的注意在transformer之前应用ResNet的混合模型中不那么明显(图7,右),这表明它可能在cnn中具有与早期卷积层类似的功能。..原创 2022-08-08 20:36:36 · 1269 阅读 · 0 评论 -
transformer原理及各领域应用分析
1)串行结构,并行运算程度低,难以拓展为深层网络(2)基于词向量预测结果,无法考虑语境(3)预测结果时,只能考虑到上文,无法考虑到下文。原创 2022-08-06 10:22:26 · 2859 阅读 · 0 评论 -
Transformer架构
基于编码器解码器架构来处理序列对,跟使用注意力的seq2seq不同,Transformer是纯基于注意力。1.多头注意力机制对同一key,value, query, 希望抽取不同的信息,例如短距离关系和长距离关系,多头注意力使用n个独立的注意力池化,合并各个头(head) 输出得到最终输出。2.有掩码的多头注意力解码器对序列中一-个元素输出时,不应该考虑该元素之后的元素,可以通过掩码来实现,也就是计算x;输出时,假装当前序列长度为i。3.基...原创 2022-05-15 20:17:36 · 422 阅读 · 0 评论 -
注意力机制
1.导论心理学原理动物需要在复杂环境下有效关注值得注意的点心理学框架:人类根据随意线索和不随意线索选择注意点一眼扫过去,你看到一个红色的杯子,这是随意线索,你想读书了,你看到一本书,这是不随意线索卷积、全连接、池化层都只考虑不随意线索·注意力机制则显示的考虑随意线索,随意线索被称之为查询(query)。每个输入是一个值(value)和不随意线索(key)的对通过注意力池化层来有偏向性的选择选择某些输入非参注意力池化层给定数据(xi;yi), i = 1,..., n平原创 2022-05-15 11:39:31 · 1048 阅读 · 0 评论 -
编码器和解码器
1.编码器—解码器(seq2seq)正在上传…重新上传取消原创 2022-05-14 21:44:20 · 7983 阅读 · 0 评论