transformer
文章平均质量分 67
lunhuicn
这个作者很懒,什么都没留下…
展开
-
基于transfomer架构的模型[GPT、BERT、VIT、ST、MAE等等]总结
输入部分主要就是词嵌入+位置编码对于词嵌入比较简单,就是对一个句子里的每个词做一个嵌入操作映射到相应的维度。一般来说就是先把句子中的词转为对应的数字索引,然后根据这个索引做embedding操作得到一个相应维度的向量。对于位置编码,Transformer这里的位置编码是不可学习的(不会更新),直接用公式计算出来的。其中dmodel是词嵌入得到单个词的向量的维度大小;pos表示词的位置,比如"我爱学习啊"这句话有5个词,其位置就分别为0,1,2,3,4;原创 2023-05-24 10:49:48 · 426 阅读 · 0 评论 -
Block-Recurrent Transformer
论文地址:https://arxiv.org/abs/2203.07852v1github:https://github.com/lucidrains/block-recurrent-transformer-pytorch原创 2023-05-24 09:54:23 · 377 阅读 · 0 评论