参考仓库:
论文:An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
有相关问题搜索知识星球号:1453755 【CV老司机】加入星球提问。扫码也可加入:
也可以搜索关注微信公众号: CV老司机
相关代码和详细资源或者相关问题,可联系牛先生小猪wx号: jishudashou
结构介绍:
ViT: Transformer + Head
Transformer: Embeddings [1x197x768] + Encoder
Encoder: N x { Block_Sequence + layerNorm [非全局均值方差,有的实现没做】}
Block: LayerNorm + MultiHeadAttension + LayerNorm + Mlp [中间有两次残差累加]
>>> 以输入224x224x3为例,embedding :196+1 个patch , 768 通道【embedding dimension】
Embeddin