Transformer

最新推荐文章于 2023-04-11 11:50:46 发布

黑嘿白柏

最新推荐文章于 2023-04-11 11:50:46 发布

阅读量181

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41616829/article/details/117734630

版权

Self-attention

输入是 I：a1，a2，a3，a4
I 乘以 Wq，Wk，Wv 矩阵得到 Q，K，V
计算attention score矩阵 A，使用softmax或者别的也可以比如relu，得到 A’

在这里插入图片描述

流程总结
Self-attention中 要学习的参数 只有 Wq，Wk，Wv

Multi-head self-attention

头的数量是一个 超参数，翻译，语音识别中需要设计比较多个头
ai 乘上一个矩阵得到 qi，然后 qi 乘上另外两个矩阵（以两个头为例子）得到 qi1,qi2
然后将得到bi1，bi2 乘以一个矩阵得到最后的 bi

Position Encoding

Layer Normalization

对同一个样本中不同维度的特征进行归一化
Layer Norm 中x’去掉右边上标

Masked Self-attention

计算self-attention的时候只考虑，当前值和当前值之前的值
比如计算b2时，只考虑 a1 和 a2

Cross attention

用 Encoder 中的 k 和 v，用 Decoder 中的 q

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Transformer

Self-attention输入是 I：a1，a2，a3，a4I 乘以 Wq，Wk，Wv 矩阵得到 Q，K，V计算attention score矩阵 A，使用softmax或者别的也可以比如relu，得到 A’流程总结Self-attention中要学习的参数只有 Wq，Wk，WvMulti-head self-attention头的数量是一个超参数，翻译，语音识别中需要设计比较多个头ai 乘上一个矩阵得到 qi，然后 qi 乘上另外两个矩阵（以两个头为例子）得到
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。