Transformer

椰子奶糖

已于 2023-06-29 15:04:58 修改

阅读量480

点赞数

分类专栏： # 机器学习理论杂记文章标签： transformer 深度学习人工智能

于 2021-06-07 17:26:20 首次发布

本文链接：https://blog.csdn.net/symuamua/article/details/117669019

版权

18 篇文章 0 订阅

订阅专栏

Embedding
- 对于文本进行拆分，每一个字定义一个x维度的字向量
位置编码
- $PE_{(pos,2i)} = \sin\frac{pos}{1000^\frac{2i}{d_{model}}}$
- $PE_{(pos,2i+1)} = \cos\frac{pos}{1000^\frac{2i}{d_{model}}}$
- 在偶数的位置用sin，奇数的位置用cos
然后将Embedding和位置编码相加即可得到输入

$softmax(\frac{QK^T}{\sqrt{d_k}})V$
QKV的获取：说白了就是由X的输入向量乘以W矩阵得到QKV，W参数由训练得到，然后除以根号dk是为了保证方差为1，有利于梯度下降
多头注意力机制-multi-head attention（弹幕说：多个脑袋一起想）
- multi-head attention则是通过h个不同的线性变换对Q，K，V进行投影，最后将不同的attention结果拼接起来：
- $MultiHead(Q,K,V) = Concat(head_1,....,head_h)W^o$
- $head_i = Attention(QW_{i}^Q,KW_{i}^K,VW_{i}^V)$
- self-attention则是取Q，K，V相同。
残差神经网络
- 避免梯度消失

Decoder和Encoder的结构差不多，但是多了一个attention的sub-layer，这里先明确decoder的输入输出和解码过程(摘自知乎)：
- 输出：对应i位置的输出词的概率分布
- 输入：encoder的输出 & 对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出
- 解码：这里要注意一下，训练和预测是不一样的。在训练时，解码是一次全部decode出来，用上一步的ground truth来预测（mask矩阵也会改动，让解码时看不到未来的token）；而预测时，因为没有ground truth了，需要一个个预测。

关注