![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Transformer
文章平均质量分 88
Transformer论文解读,主流transformer主干网络
只会git clone的程序员
博客资料链接失效或者文件找不到可以私信索要!
当前在探索的领域:机器瞎学 人工智障 模式混淆 数据掩埋 计算机幻觉 劝退系统
展开
-
transformer问题整理
前言整理一些transformer的问题吧,很多细节得反思才能注意到…记录ing…问题1、Dropout和DropPath的区别?2、为什么要multi head单头有什么影响?3、为什么用激活函数GeLU,不用传统的ReLU?4、为什么用Layer Norm?5、位置编码的其他形式?6、attention的计算公式?7、为什么attention的公式用除以dk\sqrt[]{d_k}dk缩放?答:首先看一组数据的实验:[1,2,3][10,20,30][100,200,原创 2022-03-15 12:15:00 · 2851 阅读 · 4 评论 -
Transformer主干网络——DeiT保姆级解析
前言这篇文章是基于蒸馏的方法,提高ViT的性能,根据最近transformer相关文章的实验对比以及引用可以发现,这篇文章基本上是ViT以后出现的比较早的文章了。出发点在之前的博文Transformer主干网络——ViT保姆级解析中总结了一下ViT留下的坑,本文是从ViT的留下的第五个坑下手的:ViT需要现在JFT-300M大型数据集上预训练,然后在ImageNet-1K上训练才能得到出色的结果,这借助了额外的数据。个人认为这也是留下的一个比较难或者说比较没有解决方向的坑,本文作者主要是通过蒸原创 2022-02-11 20:54:08 · 5864 阅读 · 7 评论 -
Transformer主干网络——ViT保姆级解析
前言最近准备跑点主干网络的实验,transformer在cv都杀疯了,整理下最近这些网络的发展以及创新点。从”万恶之源“ViT开始吧。结构根据上图介绍大致流程,首先一幅建筑的图片,作者将它分为大小相同的9块,然后每一块通过展平以及线性层编码成9个特征,然后额外拼接一个形状一样的一个特征用于分类:接下来,因为将图片分块他们原始对于图像中的位置信息没有了,所以作者加了一个可以学习的位置特征在原特征上,注意这里是加,不是拼接,比如说图像块1的特征是(0,0,0,0,0.5,1.0),加上一原创 2022-02-10 22:10:40 · 11108 阅读 · 4 评论 -
Transformer主干网络——PatchConvNet保姆级解析
前言论文地址:arxiv代码地址:github接收单位:arxiv(cvpr在投ing)系列文章Transformer主干网络——PVT_V1保姆级解析Transformer主干网络——PVT_V2保姆级解析Transformer主干网络——T2T-ViT保姆级解析Transformer主干网络——TNT保姆级解析Transformer主干网络——Swin保姆级解析Transformer主干网络——PatchConvNet保姆级解析持续更新!创新作者参考了一些文章的分析,认为对于原创 2022-01-28 20:38:06 · 4073 阅读 · 1 评论 -
Transformer主干网络——Swin保姆级解析
前言论文地址:arxiv代码地址:github接收单位:ICCV 2021 best系列文章Transformer主干网络——PVT_V1保姆级解析Transformer主干网络——PVT_V2保姆级解析Transformer主干网络——T2T-ViT保姆级解析Transformer主干网络——TNT保姆级解析Transformer主干网络——Swin保姆级解析持续更新!注意本文参考大神的讲解,仅将重要部分记录,想看更详细的解读,跳转->传送门动机作者出发点也是ViT的Pa原创 2022-01-26 12:51:56 · 6503 阅读 · 4 评论 -
Transformer主干网络——TNT保姆级解析
前言论文地址:arxiv代码地址:github接收单位:NeurIPS 2021系列文章Transformer主干网络——PVT_V1保姆级解析Transformer主干网络——PVT_V2保姆级解析Transformer主干网络——T2T-ViT保姆级解析Transformer主干网络——TNT保姆级解析持续更新!动机作者出发点也是ViT的Patch embed的不足(ViT留的这个坑真的是给后人留了发论文的机会…),作者将一张图片比作文章,一篇文章由句子(patchs)构成,一个句原创 2022-01-19 19:01:32 · 2636 阅读 · 1 评论 -
Transformer主干网络——T2T-ViT保姆级解析
全网最详细,面向代码扣细节!原创 2022-01-19 00:45:50 · 6521 阅读 · 5 评论 -
Transformer主干网络——PVT_V2保姆级解析
前言论文地址:PVT2代码地址:github系列文章Transformer主干网络——PVT_V1保姆级解析Transformer主干网络——PVT_V2保姆级解析动机出发点:对PVT1进行优化vit和pvt_v1对图像用4*4大小的patch进行编码,这样忽略了一定的图像局部连续性。vit和pvt_v1都是用固定大小的位置编码,这样对处理任意大小的图像不友好。计算量还是大网络分析主题结构还是承接上文,大框架如下(已经在上篇博文详细解析了输入到输出的变化,主体结构不再赘述):原创 2022-01-14 17:33:20 · 10302 阅读 · 23 评论 -
Transformer主干网络——PVT_V1保姆级解析
前言论文地址:PVT1代码地址:github作者很厉害…各种cv的顶会收割机…动机出发点:改进Vit的不足。不足一:Vit输出的特征图是single-scale的,也就是不像resnet那样有4个block可以输出四个尺度的特征图。多尺度的特征图对下游任务来说是很有用的,主要是因为之前主流的backbone是resnet,因此很多结构都是根据resnet来设计的(比如FPN,结合不同尺度的特征融合得到一个包含深浅层语义的特征),这样的话可以很好的将transformer的主干网络替换之前的re原创 2022-01-13 21:02:58 · 7172 阅读 · 27 评论