Vision Transformer, LLM, Diffusion Model 超详细解读 (原理分析+代码解读) (目录)-CSDN博客

本文链接：https://blog.csdn.net/jennycisp/article/details/147693539

0 Motivation

2020年是 Vision Transformer 发展的关键一年，我记得那是在12月的圣诞节，当所有人都沉浸在狂欢中时，刚刚实习结束的我看到 Vision Transformer 的巨大潜力，决定入坑。从 Transformer 的架构开始，到 DETR 和 ViT 的论文，开始一步一步打基础。

其实我的想法很简单：市面上关于 Transformer 的博客大多是基于 NLP 任务的，从基本原理开始系统性介绍Vision Transformer 相关工作的博客还不多。而 Vision Transformer 毕竟是 Vision Transformer，我们需要一个只针对 Vision Transformer 的系列博客，能够讲解最实时、最重要的 Vision Transformer 工作。

这个系列力求做全网最详细的 Vision Transformer 的资料，它有着自己的理念，那就是全面，通俗和及时。不仅包括 Vision Transformer 的论文，还包括高效，优质的开源库 timm 的介绍和解读。它免费在网上开放，实时地更新，因此可以及时传递 Vision Transformer 的动态。由于实习的原因，我也有自己的工作任务，即使下班时间熬夜加班加点，也不可能完全跟得上 arxiv 每天上传的 Vision Transformer 的论文的速度。但是看着越来越多的好评和赞许，以及成功地帮助越来越多的人入门 Vision Transformer，那些熬过的夜和加过的班也变得值得。

-----------------------------------------------------------------------------------------------

Update 2021.05.05

本来这个系列仅仅是一份简单的论文解读合集，但是没想到有许多读者的反响非常强烈，所以我坚定了信心，定期维护这个系列的更新，让它跟上最新的视觉模型发展而与时俱进。

恰逢五一假期最后一天看到谷歌团队又开大招，发布了一个纯 MLP 架构的视觉模型 MLP-Mixer。其作者大部分是ViT这个工作的原班人马 (Alexander Kolesnikov，Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jakob Uszkoreit, Alexey Dosovitskiy等人)，并且作者在摘要里面对这个工作的价值和意义充满自信：

We hope that these results spark further research beyond the realms of well established CNNs and Transformers.

可以想象后面会再跟上一大群通用 Vision Backbone 的相关工作。所以为了想方设法跟上发展，借助这个机会，我决定把通用 Vision Backbone 优秀论文的相关工作的论文和代码的解读也一并放在这个目录里面。我也见证了它从最初的仅仅一两篇文章到现在成为一个庞大的教程，一点点地长大并奔向美好。我也不会忘记，是读者的一次次的支持，一次次的口碑宣传，才有了这个系列的今天。

以上。

1 Vision Transformer优秀论文及对应代码介绍

1 一切从 Self-attention 开始
1.1 处理 Sequence 数据的模型
1.2 Self-attention
1.3 Multi-head Self-attention
1.4 Positional Encoding

2 Transformer 的实现和代码解读 (NIPS2017)
(来自Google Research, Brain Team)
2.1 Transformer 原理分析
2.2 Transformer 代码解读

3 Transformer+Detection：引入视觉领域的首创DETR (ECCV2020)
(来自 Facebook AI)
3.1 DETR 原理分析
3.2 DETR 代码解读

Section 2：视觉 Transformer 进阶

4 Transformer+Detection：Deformable DETR：可变形的 Transformer (ICLR2021)
(来自商汤代季峰老师组)
4.1 Deformable Convolution 原理分析
4.2 Deformable Convolution 代码解读
4.3 Deformable DETR 原理分析
4.4 Deformable DETR 代码解读

5 Transformer+Classification：用于分类任务的 Transformer (ICLR2021)
(来自 Google Research, Brain Team)
5.1 ViT 原理分析
5.2 ViT 代码解读

6 Transformer+Image Processing：IPT：用于底层视觉任务的 Transformer
(来自北京华为诺亚方舟实验室)
6.1 IPT 原理分析

Section 3：Transformer在识别任务的演进 (避免使用巨大的非公开数据集，只使用 ImageNet 训练Transformer)

7 Transformer+Distillation：DeiT：高效图像 Transformer
(来自 Facebook AI)
7.1 DeiT 原理分析
7.2 DeiT 代码解读

8 Transformer Visual Recognition：Visual Transformers：基于 Token 的图像表示和处理
(来自 UC Berkeley)
8.1 Visual Transformers 原理分析
8.2 Visual Transformers 代码解读

Section 4：Transformer内部机制的探究

9 充分挖掘 patch 内部信息：Transformer in Transformer：TNT
(来自北京华为诺亚方舟实验室)
9.1 TNT 原理分析

10 探究位置编码的必要性：Do We Really Need Explicit Position Encodings for Vision Transformers?
(来自美团)
10.1 CPVT 原理分析
10.2 CPVT 代码解读

Section 5：轻量化Transformer (1)

11 Efficient Transformer：HAT：高效的硬件感知 Transformer
(来自 MIT 韩松团队)
11.1 HAT 原理分析

12 Efficient Transformer：Lite-Transformer 远近注意力机制的轻量化 Transformer
(来自 MIT 韩松团队)
12.1 Lite-Transformer 原理分析

Section 6：将卷积融入视觉 Transformer (1)

13 CvT: Introducing Convolutions to Vision Transformers
(来自麦吉尔大学, 微软云+AI)
13.1 CvT 原理分析

14 CeiT：将卷积设计整合到视觉 Transformers中
(来自商汤)
14.1 CeiT 原理分析

Section 7：轻量化Transformer (2)

15 DeFINE：深度矩阵分解给词向量矩阵瘦身 (ICLR 2020)
(来自华盛顿大学)
15.1 DeFINE 原理分析

16 DeLighT: Deep and Light-Weight Transformer (ICLR 2021)
(来自 Facebook AI)
16.1 DELIGHT 原理分析

Section 8：更深的视觉 Transformer

17 DeepViT: 解决注意力坍塌以构建深层ViT
(来自新加坡国立大学, 字节跳动 AI Lab(美国))
17.1 DeepViT 原理分析

18 CaiT：Going deeper with Image Transformers
(来自 Facebook)
18.1 CaiT 原理分析
18.2 CaiT 代码解读

Section 9：更快更小的 Transformer

19 LeViT: 用于快速推理的视觉 Transformer
(来自 Facebook，DeiT 一作 Hugo Touvron 挂名)
19.1 LeViT 原理分析

20 ViT-Lite: 紧凑型视觉 Transformer，更小更简单
(来自俄勒冈大学，UIUC，PAIR)
20.1 ViT-Lite 原理分析

Section 10：视觉 Transformer 训练方式的演进

21 LV-ViT: 56M 参数训练视觉 Transformer
(来自新加坡国立大学，字节跳动)
21.1 LV-ViT 原理分析

22 通过抑制过度平滑来改进视觉 Transformer 训练
(来自 Facebook)
22.1 原理分析

Section 11：轻量化 Transformer (3)

23 Reformer：高效处理长序列的 Transformer (ICLR 2020)
(来自 UC Berkeley, Google Research)
23.1 Reformer 原理分析

24 Linformer: 低秩矩阵逼近实现新的 Self-Attention
(来自 Facebook AI)
24.1 Linformer 原理分析

Section 12：Transformer+图像质量评价

25 IQT：基于 Transformer 的感知图像质量评价
(来自LG，NTIRE 2021冠军方案)
25.1 IQT 原理分析
25.2 IQT 代码解读

26 Transformer+图像质量评价：TRIP
(来自 NORCE Norwegian Research Centre，深圳大学)
26.1 TRIP 原理分析

Section 13：Transformer 的精炼和底层视觉任务新探索

27 low-level 多个任务榜首被占领，中科大等联合提出：Uformer
(来自中科院，中科大，刘健庄老师团队)
27.1 Uformer 原理分析

28 Refiner：改进视觉Transformer的自注意力
(来自新加坡国立大学)
28.1 Refiner 原理分析

Section 14：将卷积融入视觉 Transformer (2)

29 FAIR提出：Convolutional stem is all you need! 探究 ViT 优化不稳定的本质原因
(来自 FAIR，RossGirshick等巨佬 )
29.1 原理分析

30 谷歌提出 CoAtNet：结合卷积和注意力 89.77% Accuracy！
(来自谷歌大脑，Quoc V. Le团队)
30.1 CoAtNet 原理分析

Section 15：Transformer 在识别任务的改进

31 T2T-ViT：在 ImageNet 上从头训练视觉 Transformer
(来自新加坡国立大学冯佳时团队，依图科技颜水成团队)
31.1 T2T-ViT 原理分析
31.2 T2T-ViT 代码解读

32 VOLO 刷新 CV 多项记录，无需额外训练数据，首次在 ImageNet 上达到87.1%
(来自新加坡国立大学冯佳时团队，依图科技颜水成团队)
32.1 VOLO 原理分析
32.2 VOLO 代码解读

Section 16：Vision Transformer + NAS

33 HR-NAS：使用轻量级 Transformer 的高效搜索高分辨率神经架构
(来自香港大学、字节跳动和中国人民大学)
33.1 HR-NAS 原理分析

34 AutoFormer：搜索用于视觉识别的 Transformer
(来自微软)
34.1 AutoFormer 原理分析

Section 17：Swin Transformer：各项任务SOTA模型 (1)

35 Swin Transformer: 屠榜各大 CV 任务的视觉 Transformer模型
(来自微软亚研院，中科大)
35.1 Swin Transformer 原理分析
35.2 Swin Transformer 代码解读

36 SwinIR: 用于图像复原的 Swin Transformer
(来自 ETH Zurich)
36.1 SwinIR 原理分析
36.2 SwinIR 代码解读

Section 18：Attention is not all you need

37 只使用纯粹的注意力机制就够了吗
(来自谷歌，EPFL)
37.1 Attention is not all you need 原理分析

Section 19：MetaTransformer：简单到尴尬的视觉模型

38 MetaTransformer：简单到尴尬的视觉模型
(来自 Sea AI Lab，新加坡国立大学)
38.1 MetaTransformer 原理分析
38.2 MetaTransformer 代码解读

Section 20：Swin Transformer：各项任务SOTA模型 (2)

39 Swin Transformer v2: 扩展容量和分辨率
(来自微软亚研院，中科大)
39.1 Swin Transformer v2 原理分析
39.2 Swin MLP 代码解读

Section 21：Transformer 用于底层视觉任务的探索

40 EDT：用于底层视觉的高效图像处理 Transformer
(来自港中文，思谋科技)
40.1 EDT 原理分析
40.2 EDT 代码解读

Section 22：Transformer内部机制的探究

41 Pyramid TNT：使用金字塔结构改进的 TNT Baseline
(来自北京华为诺亚方舟实验室)
40.1 TNT 回顾
41.2 Pyramid TNT 原理分析
41.3 Pyramid TNT 代码解读

Section 23：小数据集训练视觉 Transformer 模型

42 仅用2040张图片训练出的视觉 Transformer 模型
(来自南京大学)
42.1 IDMM 原理分析

Section 24：极深的 Transformer 模型

43 解决 Transformer 训练难题，1000层 Transformer 也能稳定训练
(来自微软亚洲研究院)
43.1 DeepNet 原理分析

Section 25：面向 TensorRT 的视觉 Transformer

44 面向 TensorRT 的视觉 Transformer
(来自字节跳动)
44.1 TRT-ViT 原理分析

Section 26：关于视觉 Transformer 你应该知道的3件事

45 关于视觉 Transformer 你应该知道的3件事
(来自 Meta AI，DeiT 一作团队)
45.1 论文解读

Section 27：视觉 Transformer 的复仇：DeiT III

46 视觉 Transformer 的复仇：DeiT III
(来自 Meta AI，DeiT 一作团队)
46.1 论文解读

Section 28：TinyViT：小型 ViT 的快速预训练蒸馏

47 TinyViT：小型 ViT 的快速预训练蒸馏
(来自微软)
47.1 TinyViT 论文解读

Section 29：MiniViT：通过权重复用压缩视觉 Transformer 模型

48 MiniViT：通过权重复用压缩视觉 Transformer 模型
(来自微软)
48.1 MiniViT 论文解读

Section 30：无需微调加速大规模视觉 Transformer 密集预测任务的方法

49 无需微调加速大规模视觉 Transformer 密集预测任务的方法
(来自微软亚洲研究院)
49.1 论文解读

Section 31：动态 Token 稀疏化实现高效的视觉 Transformer

50 DynamicViT：动态 Token 稀疏化实现高效的视觉 Transformer
(来自清华大学，周杰，鲁继文团队，UCLA)
50.1 DynamicViT 论文解读

Section 32：无需训练，Token 合并打造更快的 ViT 架构

51 无需训练，Token 合并打造更快的 ViT 架构
(来自佐治亚理工学院，Meta AI)
51.1 ToMe 论文解读

Section 33：220亿参数的巨大视觉 Transformer

52 扩展到220亿参数的巨大视觉 Transformer
(来自谷歌，含 ViT 作者)
52 ViT-22B 论文解读
52.1 背景和动机
52.2 三句话概括 ViT-22B 模型的架构
52.3 ViT-22B 的实现方法：异步并行线性操作计算
52.4 数据集和超参
52.5 图像分类迁移性能
52.6 密集预测性能
52.7 ViT-22B 与人类感知的一致性

2 Vision Transformer优秀开源工作介绍

1 用 Pytorch 轻松实现28个 vision Transformer，开源库 timm 了解一下
(来自 Ross Wightman)

2 视觉神经网络模型优秀开源工作：timm 库使用方法和代码解读
(来自 Ross Wightman)

3 通用 Vision Backbone 优秀论文及对应代码介绍

(每篇文章对应一个 Section，目录持续更新。)

Section 1：视觉 MLP 首创：MLP-Mixer

1 MLP-Mixer: An all-MLP Architecture for Vision
(来自 Google Research, Brain Team，ViT 作者团队)
1.1 MLP-Mixer 原理分析
1.1.1 仅仅靠着 MLP 就真的无法解决复杂数据集的分类任务吗？
1.1.2 MLP-Mixer 是如何处理输入图片的？
1.1.3 MLP-Mixer 与之前 Conv1×1 的不同之处在哪里？
1.1.4 MLP-Mixer 架构
1.1.5 MLP-Mixer 实验
1.2 MLP-Mixer 代码解读

2 RepMLP：卷积重参数化为全连接层进行图像识别
(来自清华大学，旷视，RepVGG 作者团队)
2.1 RepMLP 原理分析
2.1.1 深度学习模型的几个性质
2.1.2 RepMLP 模块
2.1.3 如何将卷积等效成 FC 层？

3 ResMLP：ImageNet 数据集训练残差 MLP 网络
(来自 Facebook AI，索邦大学)
3.1 ResMLP 原理分析
3.2 ResMLP 代码解读

Section 2：视觉 MLP 进阶方法

4 谷歌大脑提出 gMLP：请多多关注 MLP
(来自谷歌大脑，Quoc V .Le 团队)
4.1 gMLP 原理分析

5 港大提出 CycleMLP：用于密集预测的类似 MLP 的架构
(来自港大，罗平教授团队)
5.1 CycleMLP 原理分析
5.2 CycleMLP 代码解读

Section 3：傅里叶变换的类 MLP 架构 (1)

6 GFNet：将 FFT 思想用于空间信息交互
(来自清华大学)
6.1 GFNet 原理分析
6.2 GFNet 代码解读

Section 4：匹敌 Transformer 的2020年代的卷积网络

7 匹敌 Transformer 的2020年代的卷积网络
(来自 FAIR，UCB)
7.1 ConvNeXt 原理分析
7.2 ConvNeXt 代码解读

Section 5：傅里叶变换的类 MLP 架构 (2)

8 AFNO：自适应傅里叶神经算子
(来自 NVIDIA，加州理工，斯坦福大学)
8.1 AFNO 原理分析

Section 6：图神经网络打造的通用视觉架构

9 Vision GNN：把一张图片建模为一个图
(来自中国科学院大学，华为诺亚方舟实验室，北大)
9.1 Vision GNN 原理分析
9.2 Vision GNN PyTorch 伪代码

Section 7：优化器的重参数化技术

10 RepOptimizer：重参数化你的优化器：VGG 型架构 + 特定的优化器 = 快速模型训练 + 强悍性能
(来自清华大学，旷视科技，RepVGG 作者工作)
10.1 RepOptimizer 原理分析
10.1.1 你有多久没换过优化器了？
10.1.2 设计动机和背景
10.1.3 本文对业界优化器的知识和理解有何贡献？
10.1.4 本文做了哪些具体的工作？
10.1.5 RepOpt 的第一步：将架构的先验知识转移到你的优化器中
10.1.6 RepOpt 的第二步：通过超搜索获得超参数
10.1.7 RepOpt 的第三步：使用 RepOpt 进行训练
10.1.8 RepOpt 实验设置
10.1.9 RepOpt 实验结果

Section 8：递归门控卷积打造的通用视觉架构

11 HorNet：通过递归门控卷积实现高效高阶的空间信息交互
(来自清华大学，周杰，鲁继文团队，Meta AI)
11.1 HorNet 原理分析
11.1.1 背景和动机
11.1.2 HorNet 简介
11.1.3gConv：门控卷积实现一阶的空间交互
11.1.4gnConv：高阶的门控卷积实现高阶的空间交互
11.1.5gnConv 的计算复杂度
11.1.6 通过大卷积核进行长距离的交互
11.1.7 与 Self-attention 之间的联系
11.1.8 HorNet 模型架构
11.1.9 实验结果

link：

Section 9：用于通用视觉架构的 MetaFormer 基线

12 MetaFormer：令牌混合器类型不重要，宏观架构才是通用视觉模型真正需要的
(来自 Sea AI Lab，新加坡国立大学)
12.1 MetaFormer 论文解读
12.1.1 背景和动机
12.1.2 什么是 MetaFormer？
12.1.3 PoolFormer 架构
12.1.4 PoolFormer 通用视觉任务的实验结果
12.1.5 MetaFormer 通用视觉任务的实验结果
12.1.6 MetaFormer 的性能还可以再提升吗？
12.1.7 新的激活函数 StarReLU
12.1.8 缩放分支输出和不使用偏置
12.1.9 IdentityFormer 和 RandFormer 架构
12.1.10 ConvFormer 和 CAFormer 架构
12.1.11 新 MetaFormer 通用视觉任务的实验结果

**li

Section 10：将卷积核扩展到 51×51

13 SLaK：从稀疏性的角度将卷积核扩展到 51×51
(来自埃因霍温理工大学，德州农工)
13.1 SLaK 原理分析
13.1.1 背景和动机
13.1.2 动态稀疏化技术
13.1.3 缩放卷积核的大小使之超过 31×31 的三个观察
13.1.4 稀疏大 Kernel 网络：SLaK
13.1.5 SLaK 实验结果
13.1.6 SLaK 的其他讨论

Section 11：Transformer 风格的卷积网络视觉基线模型

14 Conv2Former：Transformer 风格的卷积网络视觉基线模型
(来自南开大学，字节跳动)
14.1 Conv2Former 论文解读
14.1.1 背景和动机
14.1.2 卷积调制模块
14.1.3 Conv2Former 整体架构
14.1.4 实验结果

Section 12：无注意力机制视觉 Transformer 的自适应权重混合

15 AMixer：无注意力机制视觉 Transformer 的自适应权重混合
(来自清华大学)
15.1 AMixer 论文解读
15.1.1 背景和动机
15.1.2 用统一的视角看待视觉 Transformer 和 MLP 模型
15.1.3 重新思考注意力机制
15.1.4 自适应权重混合
15.1.5 相对注意力权重
15.1.6 基于自适应权重混合构造的视觉主干模型 AMixer
15.1.7 实验结果

**li

Section 13：简单聚类算法实现强悍视觉架构

16 把图片视为点集，简单聚类算法实现强悍视觉架构 (ICLR 2023 超高分论文)
(目前匿名，待更新)
1.1 CoCs 论文解读
1.1.1 背景和动机
1.1.2 把图像视为一组点集
1.1.3 CoCs 模型的总体架构和图片的预处理环节
1.1.4 上下文聚类块原理
1.1.5 实验结果

Section 14：2020年代的卷积网络适配自监督学习

17 ConvNeXt V2：使用 MAE 协同设计和扩展 ConvNets
(来自 KAIST，Meta AI，FAIR，纽约大学 [ConvNeXt 原作者刘壮，谢赛宁团队])
1 ConvNeXt V2 论文解读
1.1 背景和动机
1.2 自监督学习方法 FCMAE 的初步设计
1.3 自监督学习方法 FCMAE 的进一步优化
1.3.1 Feature collapse 现象
1.3.2 特征余弦距离分析
1.3.3 全局响应归一化
1.3.4 ConvNeXt V2
1.4 实验结果

Section 15：一个适应所有 Patch 大小的 ViT 模型

18 FlexiViT：一个适应所有 Patch 大小的 ViT 模型
(来自谷歌，ViT，MLP-Mixer 作者团队)
18 FlexiViT 论文解读
18.1 背景和动机
18.2 标准 ViT 对于 Patch Size 灵活吗？
18.3 对于 Patch Size 更灵活的 FlexiViT 模型
18.4 如何改变 Patch Embedding 的尺寸？
18.5 与知识蒸馏的关系
18.6 FlexiViT 的内部表征
18.7 实验：使用预训练的 FlexiViT 模型

Section 16：空间 Shift 操作实现通用基础视觉 MLP

19 S2**-MLP：空间 Shift 操作实现通用基础视觉 MLP**
(来自百度)
19 S2-MLP 论文解读
19.1 背景和动机
19.2 空间 Shift 操作 MLP 架构
19.3 空间移位操作 (Spatial-shift operation)
19.4 S2-MLP 实验结果
19.5 改进的空间 Shift 操作
19.6 S2-MLPv2 实验结果

Section 17：Base Model 训练策略的研究

20 ResNet 的反击：全新训练策略带来强悍 ResNet 性能
(来自 timm 作者，DeiT 一作)
20 RSB ResNet 论文解读
20.1 背景和动机
20.2 三种训练策略
20.3 目标函数：多标签分类目标
20.4 数据增强
20.5 正则化策略
20.6 优化器
20.7 实验结果

Section 18：首个适用下游任务的轴向移位 MLP

21 AS-MLP：首个适用下游任务的轴向移位 MLP 视觉骨干架构
(来自上海科技大学)
21 AS-MLP 论文解读
21.1 背景和动机
21.2 AS-MLP 总体设计
21.3 AS-MLP Block 的设计
21.4 Axial Shift 操作，卷积，Transformer，和 MLP-Mixer 的区别

Section 19：当移位操作遇到视觉 Transformer

22 ShiftViT：当移位操作遇到视觉 Transformer
(来自中国科学技术大学，MSRA)
22 ShiftViT 论文解读
22.1 背景和动机
22.2 Shift 操作
22.3 Shift 块
22.4 ShiftViT 架构
22.5 实验结果

Section 20：用于密集预测任务的视觉 Transformer Adapter

23 ViT-Adapter：用于密集预测任务的视觉 Transformer Adapter
(来自南大，Shanghai AI Lab，清华)
23 ViT-Adapter 论文解读
23.1 背景和动机
23.2 ViT-Adapter 架构
23.3 空间先验模块
23.4 空间特征注入器
23.5 多尺度特征提取器
23.6 具体配置
23.7 COCO 目标检测实验结果
23.8 ADE20K 语义分割实验结果

Section 21：ViT 的前奏：Scale up 卷积神经网络学习通用视觉表示

24 ViT 的前奏：Scale up 卷积神经网络学习通用视觉表示
(来自谷歌，含 ViT 作者团队)
24 BiT 论文解读
24.1 背景和动机
24.2 Big Transfer 上游任务预训练
24.3 Big Transfer 下游任务迁移
24.4 上游任务预训练实验设置
24.5 下游任务迁移实验设置
24.6 标准计算机视觉 Benchmark 实验结果
24.7 单个数据集更少数据的实验结果
24.8 ObjectNet：真实世界数据集的实验结果
24.9 目标检测实验结果

Section 22：FasterNet：追求更快的神经网络

25 FasterNet：追求更快的神经网络
(来自 HKUST，Rutgers University)
25 FasterNet 论文解读
25.1 背景和动机
25.2 部分卷积 PConv 的设计的内存访问成本
25.3 部分卷积 PConv 的设计
25.4 PConv 之后的 Point-Wise Convolution
25.5 基于 PConv 的视觉骨干模型 FasterNet
25.6 PConv 具有更高的 FLOPS
25.7 实验结果

Section 23：AFFNet：频域自适应频段过滤=空域全局动态大卷积核

26 AFFNet：频域自适应频段过滤=空域全局动态大卷积核
(来自 MSRA)
1 AFFNet 论文解读
1.1 背景和动机
1.2 Token Mixing 过程的一般表示
1.3 自适应频段过滤算子的原理
1.4 AFFNet 网络架构
1.5 实验结果

link：

Section 24：Flattened Transformer：聚焦的线性注意力机制构建视觉 Transformer

27 Flatten Transformer：聚焦的线性注意力机制构建视觉 Transformer
(来自清华，黄高老师团队)
27 Flatten Attention 论文解读
27.1 背景：现有线性注意力机制的不足之处
27.2 线性注意力机制的聚焦能力不够及其解决方案
27.3 线性注意力机制的特征丰富度不够及其解决方案
27.4 聚焦线性注意力机制
27.5 实验结果

Section 25：RefConv：一种基于重参数化操作的重聚焦卷积方法

28 RefConv：一种基于重参数化操作的重聚焦卷积方法
(来自南京大学，腾讯 AI Lab，RepVGG 作者团队)
28 RefConv 论文解读
28.1 背景：增加现有卷积架构的先验
28.2 DW Conv 的重参数化重聚焦技术
28.3 广义的重参数化重聚焦技术
28.4 计算复杂度分析
28.5 重参数化重聚焦训练
28.6 实验结果
28.7 消融实验结果
28.9 重参数化重聚焦训练平滑了 Loss Landscape

Section 26：NFNet：无需 BN 的 ResNet 变体

29 NFNet：无需 BN 的 ResNet 变体
(来自 DeepMind)
29 NFNet 论文解读
29.1 背景：Batch Norm 的优点
29.2 背景：Batch Norm 的缺点以及 Normalizer-Free 的 ResNet 模型
29.3 去掉 Batch Norm 的网络
29.4 自适应梯度裁剪
29.5 自适应梯度裁剪的消融实验结果
29.6 NFNet 模型架构改进
29.7 NFNet 实验结果
29.8 NFNet 的大规模预训练

Section 27：NFNet 视觉大模型：匹敌 ViT 性能的 JFT-4B 大规模预训练

30 NFNet 视觉大模型：匹敌 ViT 性能的大规模预训练
(来自 Google DeepMind)
30.1 背景：视觉社区从中等规模数据集到超大规模数据集的性能评估
30.2 JFT-4B 预训练的 NFNet 服从对数-对数缩放定律
30.3 ImageNet 微调之后的 NFNet 匹配了 Vision Transformer 的性能

**Section 28：**在 ViT 中使用 ReLU 取代 Softmax

31 在 ViT 中使用 ReLU 取代 Softmax
(来自 Google DeepMind)
31.1 ReLU-attention 的新发现
31.2 去掉 Softmax 的相关工作
31.3 ReLU-attention 方法
31.4 实验结果
31.5 qk-norm 实验结果
31.6 添加 gate 的影响

**Section 29：**视觉 Transformer 需要寄存器

32 视觉 Transformer 需要寄存器
(来自 FAIR, Meta)
32 Register 论文解读
32.1 背景：视觉 Transformer 的特征中存在 “伪影”
32.2 视觉 Transformer 中 “伪影” 的特点
32.3 针对 “伪影” 的假设和补救措施
32.4 实验结果

**Section 30：**Agent Attention：集成 Softmax 和 Linear 注意力机制

33 Agent Attention：集成 Softmax 和 Linear 注意力机制
(来自清华，黄高老师团队)
33 Agent Attention 论文解读
33.1 Agent Attention 集成 Softmax Attention 和 Linear Attention 的优势
33.2 Softmax Attention 和 Linear Attention 计算范式
33.3 Agent Transformer
33.4 感知任务实验结果
33.5 生成任务实验结果
33.6 大感受野和高分辨率

**Section 31：**一个像素就是一个 token！探索 Transformer 新范式

34 一个像素就是一个 token！探索 Transformer 新范式
(来自 FAIR, Meta AI，阿姆斯特丹大学)
34 PiT 论文解读
34.1 局部性这个归纳偏置可以在 Transformer 中去除
34.2 ConvNets 中的局部性
34.3 ViTs 中的局部性
34.4 像素 Transformers
34.5 实验1：监督学习
34.6 实验2：自监督学习
34.7 实验3：图像生成
34.8 ViT 中的局部性设计
34.9 PiT 的局限性

Section 32：PolaFormer：极性感知的线性注意力机制

35 PolaFormer：极性感知的线性注意力机制
(来自哈工大深圳，鹏城实验室)
35 PolaFormer 论文解读
35.1 当前 Linear Attention 技术的特点：非负属性和低熵属性
35.2 非负属性和低熵属性的缺点
35.3 极性感知的注意力
35.4 通过可学习的幂函数降低 Linear Attention 的熵
35.5 ImageNet 分类结果
35.6 COCO 目标检测和实例分割结果
35.7 语义分割结果

Section 33：DyT：取代 Transformer 归一化层

36 DyT：取代 Transformer 归一化层
(来自 Meta 明星团队：Xinlei Chen, Kaiming, LeCun, Zhuang Liu)
36 DyT 论文解读
36.1 DyT 论文背景
36.2 归一化层
36.3 归一化层的作用
36.4 Dynamic Tanh (DyT) 操作
36.5 实验：视觉监督学习
36.6 实验：视觉自监督学习
36.7 实验：扩散模型
36.8 实验：大语言模型
36.9 DyT 分析性实验

cite as:

@Article{wang2021visiontransformer,
  author  = {Jiahao Wang},
  title   = {Vision Transformer , Vision MLP超详细解读 (原理分析+代码解读)},
  journal = {https://zhuanlan.zhihu.com/},
  year    = {2021},
  url= {https://zhuanlan.zhihu.com/p/348593638/},
}

大模型岗位需求

大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用