课程五学习笔记:如何训练ViT模型?DeiT算法解析
1. Vision Transformer模型回顾
- Class Token目的:以NLP的方式做分类问题。以一个虚拟的Patch去关注图像中其他的Patch,来获得图像中综合的信息,通过和Classifier的连接,反向传播优化我们的Class Token。
- Position Embedding 目的:在做Patch-Embed的时候,缺少了位置编码信息,加上之后,辅助模型更好的训练。
2. DeiT: Data-efficient image Transformers
DeiT解决的最大的问题:
1.ViT模型性能被大幅度提高了
2.ViT模型能够用8卡甚至4卡训练了
DeiT能够取得更好的效果的方法: .
1.Better Hyperparameter (更好超参数设置)
2.Data Augmentation (多个数据增广)
3.Distillation (知识蒸馏)
保证模型更好收敛。 可以使用小数据训练。进一步提高性能