论文链接
链接:https://pan.baidu.com/s/1_EFbxCyyT_MwYxeySu6KDA?pwd=w99o
提取码:w99o
问题/目的
将transformer从nlp迁移至cv。
结论
将transformer结构先进行超大数据集预训练,然后迁移至相关cv任务,效果很好。
越大的vit模型配合越大的预训练数据集,效果越好。
创新点
1、网络结构
- 将H×W×C的图片拆分成N个P×P×C个patches,N=H×W/P^2。使用一种可训练映射方式将小块flattern到D个,D为Transfomer的每层向量大小(这一条尚未完全理解)。
- embedding预留第一位z00代表类别。pretrain和fine-tuning时,zl0会接一个分类head(pretrain时为一层的mlp,fine-tuning时为一层全连接)。
- 输入还包含一个一维的position embeddings(二维在实验中未见收益)。patches和position embeddings共同作为encoder输入。
- vit的block由MSA和MLP组成。每个block前方