Part1 视频学习
Vision Transformer
不同ViT版本的准确率
Vision Transformer网络架构
模型由三个模块组成:
- Linear Projection of Flattened Patches(Embedding层)
- Transformer Encoder(图右侧有给出更加详细的结构)
- MLP Head(最终用于分类的层结构)
在Embedding层,对于标准的Transformer模块,要求输入的是token(向量)序列,即二维矩阵[num_ token, token_ dim]。
在代码实现中,直接通过一个卷积层来实现。以ViT-B/16为例,使用卷积核大小为16x16,stride为16,卷积核个数为768 ,通过卷积[224, 224, 3] -> [14, 14, 768],然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768],此时正好变成了一个二维矩阵。
在输入Transformer Encoder之前需要加上[class]token以及Position Embedding,都是可训练参数
拼接[class]token: Cat([1,768],[196,768])-> [197,768]
叠加Position Embedding:[197,768]->[197,768]。
Transformer Encoder层
Transformer Encoder就是重复堆叠Encoder Block L次,主要由以下部分组成:
- Layer Norm 对每个token进行Norm处理
- Multi-Head Attention
- Dropout/DropPath,在原论文的代码中是直接使用的Dropout层
- MLP Block,如图右侧所示,就是全连接+GELU激活函数+Dropout,需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072],第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。
MLP Head层
注意:在Transformer Encoder前有个Dropout层,后有一个Layer Norm。训练ImageNet21K时是由Linear+tanh激活函数+Linear,但是迁移到lmageNet1K上或者你自己的数据上时,只有一个Linear。
ViT-B/16网络结构
ViT模型的详细参数
Hybrid混合模型特点
- R50的卷积层采用的StdConv2d,不是Conv2d
- 将所有的BatchNorm层替换成GroupNorm层
- 把stage4g中的3个Block移至stage3g
ViT网络与其他网络的性能对比
Swin Transformer
网络整体架构
Swin Transformer与Vision Transformer对比,减少计算量,准确率更高。
网络整体框架
Patch Merging详解
特征矩阵的高和宽缩减为原来的一半,channel翻倍
W-MSA详解
目的:减少计算量
缺点:窗口之间无法进行信息交互
W-MSA模块计算量
SW-MSA详解
采用W-MSA模块时,只会在每个窗口内进行自注意力计算,所以窗口与窗口之间是无法进行信息传递的。为了解决这个问题,作者引入了Shifted Windows Multi-Head Self-Attention(SW-MSA)模块,即在第L+1层使用进行偏移的W-MSA。偏移后的窗口,比如对于第一行第2列的2x4的窗口,它能够使第L层的第一排的两个窗口信息进行交流。
目的:实现不同窗口之间的信息交互
划分window过程
注意:全部计算完后需要将数据挪回原来的位置上
Relative Position Bias详解
相对位置编码主要是为了解决Self-Attention中的排列不变性的问题,即不同顺序输入的tokens会得到一样的结果。
依次进行如下变换:
Relative Position Bias table
模型详细配置参数
ConvNeXt
ConvNeXt与Swin性能对比
网络设计:作者将ResNet50中的堆叠次数由(3,4,6,3)调整成(3,3,9,3),stem换成卷积核大小为4,步距为4的卷积层,增大宽度。
Inverted bottleneck
在较小的模型上准确率由80.5%提升到了80.6%
在较大的模型上准确率由81.9%提升到82.6%
Large kerner size
Macro designs
不同网络结构准确率对比,准确率不断提升
ConvNeXt-T结构图
每个stage都是由ConvNeXt Block组成
个人感想
经过6周的学习,了解了许多不同的网络结构,对深度学习这个领域有了更深入的探索,虽然有一些网络结构目前来说完全掌握还比较困难,但还是希望以后通过更加高效细致的方法来熟练运用它们,未来加油!