Visual Transformer算法汇总总结


深度学习知识点总结

专栏链接:
https://blog.csdn.net/qq_39707285/article/details/124005405

此专栏主要总结深度学习中的知识点,从各大数据集比赛开始,介绍历年冠军算法;同时总结深度学习中重要的知识点,包括损失函数、优化器、各种经典算法、各种算法的优化策略Bag of Freebies (BoF)等。


从RNN到Attention到Transformer系列

专栏链接:
https://blog.csdn.net/qq_39707285/category_11814303.html

此专栏主要介绍RNN、LSTM、Attention、Transformer及其代码实现。


YOLO系列目标检测算法

专栏链接:
https://blog.csdn.net/qq_39707285/category_12009356.html

此专栏详细介绍YOLO系列算法,包括官方的YOLOv1、YOLOv2、YOLOv3、YOLOv4、Scaled-YOLOv4、YOLOv7,和YOLOv5,以及美团的YOLOv6,还有PaddlePaddle的PP-YOLO、PP-YOLOv2等,还有YOLOR、YOLOX、YOLOS等。


Visual Transformer

专栏链接:
https://blog.csdn.net/qq_39707285/category_12184436.html

此专栏详细介绍各种Visual Transformer,包括应用到分类、检测和分割的多种算法。



Visual Transformer算法汇总总结
本文汇总把Transformer应用于计算机视觉领域的多种算法,包括分类、目标检测和目标分割,并在相应数据集上进行对比。

1. 用于分类的Transformer

1
Visual Transformer
在ImageNet-1k、CIFAR-10和CIFAR-100数据集上TOP-1准确率对比。
“1k only”
表示仅在ImageNet-1K数据集上进行训练; “21k pre-train”表示在ImageNet-21k数据集上进行预训练,然后再ImageNet-1k上进行微调; “Distill” 表示应用DEIT蒸馏训练方案
MethodTypeEpochsBatch
Size
#Params.
(M)
FLOPs
(G)
Training
Scheme
Image SizeImageNet-1k Top-1 Acc.CIFAR Top-1 Acc.
TrainTest1k only21k pre-train. / Distill.ΥCIFAR 10CIFAR 100
ViT-B/16↑
ViT-L/16↑ 
OVT300409686
307
743
5172
ViT 224
224
384
384
77.9
76.5
83.97
85.15
98.1
97.9
87.1
86.4
VT-ResNet18
VT-ResNet34
VT-ResNet50
VT-ResNet101 
TEC9025611.7
19.2
21.4
41.5
1.569
3.236
3.412
7.129
-224
224
224
224
224
224
224
224
76.8
79.9
80.6
82.3
-
-
-
-
-
-
-
-
-
-
-
-
BoTNet-S1-59-T2
BoTNet-S1-110-T4
BoTNet-S1-128-T5↑ 
TEC350409633.5
54.7
75.1
7.3
10.9
19.3
-224
224
224
224
224
256
81.7
82.8
83.5
-
-
-
-
-
-
-
-
-
DeiT-Ti
DeiT-S
DeiT-B
DeiT-B↑ 
CET30010245.7
22.1
86.6
86.6
1.3
4.6
17.6
52.8
DeiT 224
224
224
224
224
224
224
384
72.2
79.8
81.8
83.1
74.5Υ
81.2
Υ
83.4
Υ
84.5
Υ
-
-
99.1
99.2
-
-
90.8
91.4
ConViT-Ti
ConViT-S
ConViT-B 
CET3005126
27
86
1
5.4
17
DeiT 224
224
224
224
224
224
73.1
81.3
82.4
-
-
-
-
-
-
-
-
-
LocalViT-T
LocalViT-S 
CET30010245.9
22.4
1.3
4.6
DeiT 224
224
224
224
74.8
80.8
-
-
-
-
-
-
CeiT-T
CeiT-S
CeiT-T↑
CeiT-S↑ 
CET30010246.4
24.2
6.4
24.2
1.2
4.5
3.6
12.9
DeiT 224
224
224
224
224
224
384
384
76.4
82
78.8
83.3
-
-
-
-
98.5
99
98.5
99.1
88.4
90.8
88
90.8
ResT-Small
ResT-Base
ResT-Large 
CET300204813.66
30.28
51.63
1.9
4.3
7.9
DeiT 224
224
224
224
224
224
79.6
81.6
83.6
-
-
-
-
-
-
-
-
-
ViTC-1GF
ViTC-4GF
ViTC-18GF
ViTC-36GF 
CET4002048
2048
1024
512
4.6
17.8
81.6
167.8
1.1
4
17.7
35
DeiT , PVT 224
224
224
224
224
224
224
224
75.3
81.4
83
84.2
-
81.2
84.9
85.8
-
-
-
-
-
-
-
-
CoAtNet-0
CoAtNet-1
CoAtNet-2
CoAtNet-3
CoAtNet-4-E150↑ 
CET300/90409625
42
75
168
275
4.2
8.4
15.7
34.7
189.5
-224
224
224
224
224
224
224
224
224
384
81.6
83.3
84.1
84.5
-
-
-
87.1
87.6
88.4
-
-
-
-
-
-
-
-
-
-
TNT-S
TNT-B
TNT-S↑
TNT-B↑ 
TET300102423.8
65.6
23.8
65.6
5.2
14.1
-
-
DeiT 224
224
224
224
224
224
384
384
81.3
82.8
83.1
83.9
-
-
-
-
-
-
98.7
99.1
-
-
90.1
91.1
Swin-T
Swin-S
Swin-B
Swin-B↑
Swin-L↑ 
TET300/601024/409629
50
88
88
197
4.5
8.7
15.4
47
103.9
DeiT 224
224
224
224
224
224
224
224
384
384
81.3
83
83.3
84.2
-
-
-
85.2
86.0
86.4
-
-
-
-
-
-
-
-
-
-
VOLO-D1
VOLO-D2
VOLO-D3
VOLO-D4
VOLO-D5
VOLO-D3↑
VOLO-D4↑
VOLO-D5↑ 
TET300102427
59
86
193
296
86
193
296
6.8
14.1
20.6
43.8
69
67.9
197
304
LV-ViT 224
224
224
224
224
224
224
224
224
224
224
224
224
448
448
448
84.2
85.2
85.4
85.7
86.1
86.3
86.8
87
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
T2T-ViT-14
T2T-ViT-19 
TET310102421.5
39.2
5.2
8.9
-224
224
224
224
81.5
81.9
-
-
97.5
98.3
88.4
89
PVT-Tiny
PVT-Small
PVT-Medium
PVT-Large 
HT30012813.2
24.5
44.1
61.4
1.9
3.8
6.7
9.8
DeiT 224
224
224
224
224
224
224
224
75.1
79.8
81.2
81.7
-
-
-
-
-
-
-
-
-
-
-
-
PiT-Ti
PiT-XS
PiT-S
PiT-B 
HT30010244.9
10.6
23.5
73.8
0.7
1.4
2.9
12.5
DeiT 224
224
224
224
224
224
224
224
73
78.1
80.9
82
74.6Υ
79.1
Υ
81.9
Υ
84
Υ
-
-
-
-
-
-
-
-
CvT-13
CvT-21
CvT-13↑
CvT-21↑
CvT-W24↑ 
HT300204820
32
20
32
277
4.5
7.1
16.3
24.9
193.2
ViT , BiT 224
224
224
224
224
224
224
384
384
384
81.6
82.5
83
83.3
-
-
-
83.3
84.9
87.7
-
-
-
-
-
-
-
-
-
-
DeepViT-S
DeepViT-L 
DT30025627
55
6.2
12.5
DeiT , ResNest 224
224
224
224
82.3
83.1
-
-
-
-
-
-
CaiT-XS-24
CaiT-S-24
CaiT-S-36
CaiT-M-24
CaiT-M-36 
DT400102426.6
46.9
68.2
185.9
270.9
5.4
9.4
13.9
36
53.7
DeiT 224
224
224
224
224
224
224
224
224
224
81.8
82.7
83.3
83.4
83.8
82.0Υ
83.5Υ
84Υ
84.7Υ
85.1Υ
-
-
99.2
-
99.3
-
-
92.2
-
93.3
DiversePatch-S12
DiversePatch-S24
DiversePatch-B12
DiversePatch-B24
DiversePatch-B12↑ 
DT400102422
44
86
172
86
-
-
-
-
-
DeiT 224
224
224
224
224
224
224
224
224
384
81.2
82.2
82.9
83.3
84.2
-
-
-
-
-
-
-
-
-
-
-
-
Refined-ViT-S
Refined-ViT-M
Refined-ViT-L
Refined-ViT-M↑
Refined-ViT-L↑ 
DT300256

512
25
55
81
55
81
7.2
13.5
19.1
49.2
69.1
DeiT 224
224
224
224
224
224
224
224
384
384
83.6
84.6
84.9
85.6
85.7
-
-
-
-
-
-
-
-
-
-
-
-
-
-
CrossViT-9
CrossViT-15
CrossViT-18
CrossViT-18*
CrossViT-15*↑
CrossViT-18*↑ 
M30040968.6
27.4
43.3
44.3
28.5
44.6
1.8
5.8
9.03
9.5
21.4
32.4
DeiT 224
224
224
224
224
224
224
224
224
224
384
384
73.9
81.5
82.5
82.8
83.5
83.9
-
-
-
-
-
-
-
99
99.11
-
-
-
-
90.77
91.36
-
-
-
LV-ViT-S
LV-ViT-M
LV-ViT-L
LV-ViT-M↑
LV-ViT-L↑ 
DAT300102426
56
150
56
150
6.6
16
59
42.2
157.2
LV-ViT 224
224
288
224
288
224
224
288
384
448
83.3
84
85.3
85.4
85.9
-
-
-
-
-
-
-
-
-
-
-
-

2. 用于目标检测的Transformer

3. 用于分割的Transformer

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值