Transformer学习

Transformer学习

需要训练的矩阵

  1. Q:Query,要去查询的单词矩阵
  2. K:Key,等着被查的单词矩阵
  3. V:Value,实际的特征信息

self-Attention整体计算流程

  1. 每个词的Q会跟每个其他词的K计算得分Score
  2. 将Score用Softmax后得到整体加权结果(Softmax之后的比例乘上该词的V,最终的结果是所有词的加权结果之和【z1=0.88v1+0.12v2】)
  3. 此时每个词看的不只是它前面的序列而是整个输入序列
  4. 同一时间计算出所有词的表示结果

multi-header机制(8)

  1. 通过不同的header得到多个特征表达
  2. 将所有的特征拼接到一起
  3. 可以通过再一层全连接来降维(乘上全连接矩阵)

multi-header结果

  1. 不同的注意力结果
  2. 得到的特征向量表达也不同

堆叠多层self-attention

多层self-attention,计算方法相同

位置信息表达

在self-attention中每个词都会考虑整个序列的加权,所以其出现位置并不会对结果产生什么影响,相当于放哪都无所谓,但是这跟实际就有些不符合了,我们希望模型能对位置有额外的认识。

embedding with time signal = positional encoding(位置信息编码矩阵,余玄或者正玄) + embeddings

Add与Normalize残差连接

使得训练更稳定。残差连接,F(x)+ x 。F(x)与 x比较 ,训练后的特征与原来的特征进行比较,至少不比原来差。

Decoder

Attention计算不同 self-attention与encoder-decoder-self-attention(encoder的K、V,decoder的Q)

加入Mask机制,前面有的能用,后面mask的不用

最终输出结果

得到最终预测结果(Softmax中概率最大的词)

损失函数cross-entropy交叉熵函数

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梦码城

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值