Vision Transformer【ViT】学习笔记
模型架构图
整体介绍
首先将图片切分成为9宫格,每一个小块为一个patch,再展平为1维向量,再经过一个线性层(MLP)投影成为我们规定的维
度(对应于Transformer里面的将token向量化的过程)。
由于图片切分之后分别输入到网络中,此时位置信息会被打乱,此时需要positional embedding对位置信息进行编码,再进行自注意力的计算。
在Encoder的最后,每一个token都对应一个输出,应该用哪一个作为输出分类呢?
借鉴bert,Extra learnable {class} em
原创
2022-05-07 16:53:55 ·
375 阅读 ·
0 评论