ViT
文章平均质量分 81
justld
努力努力再努力
展开
-
【论文笔记】Shunted Self-Attention via Multi-Scale Token Aggregation 论文笔记及实验
Shunted Self-Attention via Multi-Scale Token Aggregation论文笔记。ViT模型在设计时有个特点:在相同的层中每个token的感受野相同。这限制了self-attention层捕获多尺度特征的能力,从而导致处理多尺度目标的图片时性能下降。针对这个问题,作者提出了shunted self-attention,使得每个attention层可以获取多尺度信息。原创 2022-04-17 16:15:51 · 6360 阅读 · 1 评论 -
【论文笔记】DeiT论文阅读笔记
针对ViT难训练的问题,DeiT提出参数设置、数据增强、知识蒸馏来更有效地训练ViT。DeiT提出的训练方法成为后续ViT模型的训练标注。原创 2022-04-05 20:59:42 · 4219 阅读 · 0 评论 -
【论文笔记】Swin-Transformer系列阅读笔记
本文提出了一个计算机视觉任务中的通用backbone模型:Swin Transformer。Swin将self-attention限制在局部窗口内进行,降低了Attention的计算量,同时利用滑动窗口机制使得不同窗口间建立联系,Swin在各个视觉任务屠榜(一个字:强)。...原创 2022-04-03 19:40:48 · 3556 阅读 · 0 评论 -
【论文笔记】MPViT论文阅读笔记
传统的ViT模型使用单尺度的PatchEmbedding,MPViT提出使用多尺度PatchEmbedding和多路并行的网络结构,同时移除了cls token。原创 2022-03-18 21:52:00 · 913 阅读 · 0 评论 -
【论文笔记】PVT系列论文阅读笔记
ViT适用于处理图像分类任务,但是不适合直接应用到密集预测任务,因为ViT的输出分辨率较低(number of patches)。PVT(Pyramid Vision Transformer)通过巧妙地设计,可以输出高分辨率的特征图,同时引入了SRA(spatial reduction attention)来减少计算量。类似CNN,PVT输出多分辨率特征图,可应用于各类下游任务(语义分割、目标检测等)。原创 2022-03-19 15:10:00 · 5869 阅读 · 8 评论 -
【论文笔记】MetaFormer/PoolFormer 论文笔记及体验
Transformer已经证明在计算机视觉任务中有非常大的潜力,一种普遍的看法是基于attention的token mixer模块使transformer具有竞争力。但是将attention用spatial MLP替代后,模型仍然具有非常好的效果。那么是不是transformer的结构而不是attention使其有效呢?作者使用池化层代替transformer中的attention,构建了PoolFormer模型,取得了非常好的效果,ImageNet-1k准确率达到82.1%。证明了Transformer结原创 2022-04-03 11:38:05 · 3534 阅读 · 0 评论