transformer源码分析

最新推荐文章于 2023-10-04 16:47:44 发布

VIP文章 qq_38022658

最新推荐文章于 2023-10-04 16:47:44 发布

阅读量212

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_38022658/article/details/114931227

版权

基本以 https://wmathor.com/index.php/archives/1438/ 和 https://github.com/jadore801120/attention-is-all-you-need-pytorch为教材进行学习。

在这里插入图片描述
关键点：
1.encoder的隐藏层作为decoder的multi-head-attention的k，v矩阵的input，而decoder多头注意力的q矩阵的input由它自身的masked multi-head-attention经过LN和残差结构得到。
2.encoder的input是可以并行的，也因此要加一个positional encoding来提供顺序信息。但是decoder是不并行的，上一个的output输出后，作为下一次的output embedding输入
3.masked multi-head-attention 是多经过了一个右上全为false的对角矩阵，用来保证注意力仅在当前词之前的词之上
4.源码中出现了BPE （byte pair encoding）的部分，参考https://blog.csdn.net/foneone/article/details/103811328和https://blog.csdn.net/bf96163/article/details/105967287/文章，本质上是学习模块化频繁字符串来简化编

最低0.47元/天解锁文章

优惠劵

qq_38022658

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer源码分析

基本以 https://wmathor.com/index.php/archives/1438/ 和 https://github.com/jadore801120/attention-is-all-you-need-pytorch为教材进行学习。关键点：1.encoder的隐藏层作为decoder的multi-head-attention的k，v矩阵的input，而decoder多头注意力的q矩阵的input由它自身的masked multi-head-attention经过LN和残差结构得到。2
复制链接

扫一扫