图像分类篇章-4-transformer,Vision TransFormer,swinTrans
transformer:RNN:记忆长度比较短。transformer:记忆长度无限长结构:核心:Attention的公式首先使用embedding层:embedding层是全连接层的一个特例。设输入向量为x,全连接层的权重参数矩阵为W,则该层的输出向量为y=Wx;只是在embedding层中,x为one-hot向量,例如:[0,1,0,0,0],则线性变换就退化成了一个查表操作。第一步:第二步:...
原创
2022-03-28 23:32:14 ·
1534 阅读 ·
0 评论