Transformer学习

最新推荐文章于 2024-07-27 23:02:02 发布

梦码城

最新推荐文章于 2024-07-27 23:02:02 发布

阅读量92

点赞数 1

分类专栏： NLP 文章标签： python 人工智能深度学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45724216/article/details/117042971

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Transformer学习

需要训练的矩阵

Q：Query，要去查询的单词矩阵
K：Key，等着被查的单词矩阵
V：Value，实际的特征信息

self-Attention整体计算流程

每个词的Q会跟每个其他词的K计算得分Score
将Score用Softmax后得到整体加权结果（Softmax之后的比例乘上该词的V，最终的结果是所有词的加权结果之和【z1=0.88v1+0.12v2】）
此时每个词看的不只是它前面的序列而是整个输入序列
同一时间计算出所有词的表示结果

multi-header机制（8）

通过不同的header得到多个特征表达
将所有的特征拼接到一起
可以通过再一层全连接来降维（乘上全连接矩阵）

multi-header结果

不同的注意力结果
得到的特征向量表达也不同

堆叠多层self-attention

多层self-attention，计算方法相同

位置信息表达

在self-attention中每个词都会考虑整个序列的加权，所以其出现位置并不会对结果产生什么影响，相当于放哪都无所谓，但是这跟实际就有些不符合了，我们希望模型能对位置有额外的认识。

embedding with time signal = positional encoding（位置信息编码矩阵，余玄或者正玄） + embeddings

Add与Normalize残差连接

使得训练更稳定。残差连接，F（x）+ x 。F（x）与 x比较，训练后的特征与原来的特征进行比较，至少不比原来差。

Decoder

Attention计算不同 self-attention与encoder-decoder-self-attention（encoder的K、V，decoder的Q）

加入Mask机制，前面有的能用，后面mask的不用

最终输出结果

得到最终预测结果（Softmax中概率最大的词）

损失函数cross-entropy交叉熵函数

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer学习

Transformer学习需要训练的矩阵Q：Query，要去查询的单词矩阵K：Key，等着被查的单词矩阵V：Value，实际的特征信息self-Attention整体计算流程每个词的Q会跟每个其他词的K计算得分Score将Score用Softmax后得到整体加权结果（Softmax之后的比例乘上该词的V，最终的结果是所有词的加权结果之和【z1=0.88v1+0.12v2】）此时每个词看的不只是它前面的序列而是整个输入序列同一时间计算出所有词的表示结果multi-header机制（
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦码城 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。