Transformer如何并行化? self-attention公式中的归一化有什么作用?


 

0.Transformer如何并行化的?

Transformer的并行化我认为主要体现在self-attention模块,在Encoder端Transformer可以并行处理整个序列,并得到整个输入序列经过Encoder端的输出,在self-attention模块,对于某个序列x_{1}, x_{2}, \dots, x_{n}​,self-attention模块可以直接计算 x_{i}, x_{j} 的点乘结果,而RNN系列的模型就必须按照顺序从x_{1}计算到x_{n}

1.self-attention公式中的归一化有什么作用?

首先说明做归一化的原因,随着 d_{k} 的增大,q \cdot k 点积后的结果也随之增大,这样会将softmax函数推入梯度非常小的区域,使得收敛困难(可能出现梯度消失的情况)(为了说明点积变大的原因,假设q和k的分量是具有均值0和方差1的独立随机变量,那么它们的点积 q \cdot k=\sum_{i=1}^{d k} q_{i} k_{i} 均值为0,方差为d_k​),因此为了抵消这种影响,我们将点积缩放\frac{1}{\sqrt{d_{k}}} ​,

NLPer看过来,一些关于Transformer的问题整理_笔经面经_牛客网

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Pengsen Ma

太谢谢了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值