*免责声明:
1\此方法仅提供参考
2\搬了其他博主的操作方法,以贴上路径.
3*
场景一: Attention is all you need
场景二: VIT
场景三: Swin v1
场景四: Swin v2
场景五: SETR
场景六: TransUNet
场景七: SegFormer
场景八: PVT
场景九: Segmeter
…
场景一:Attention is all you need
1.1 概述
强推先看–> 《场景三:seq2seq与attention机制》
1.2 transformer网络结构
细讲 | Attention Is All You Need
1.3 encoder
1.4 decoder
tarnsformer里面的decoder阶段的mask的作用与数学描述
1.5 输入端 (位置编码)
1.6 encoder与decoder的交互形式
…
场景二: VIT (Vision Transformer)
【机器学习】详解 Vision Transformer (ViT)
1.1 概述
1.2 VIT网络结构
1.3 输入端编码处理
图片编码
用于分类的class编码
位置编码
1.4 encoder
1.5 MLP Head
1.6 ViT-B/16结构图
1.7 hybrid model (cnn与transformer结合的混合模型)
1.8 参数调节
1.9 实验结果
…
场景三:swin v1
参考三:详解Swin Transformer核心实现,经典模型也能快速调优
1.1 前言
1.2 网络结构
1.3 输入端编码处理
1.4 W-MSA ( Window Mutil-head Attention )
1.5 SW-MSA ( Shifted Window Mutil-head Attention)
1.6 Patch Merging
1.7 相对位置偏置
1.8 模型结构图
1.9 性能
…
…
you did it