Transformer模型详解(二),多头自注意力机制(Muti-HeadSelf Attention)

多头自注意力机制,是transformer最核心的部分。整体架构如下:

其中自注意力机制会分别使用QKV,三个线性层对输入数据进行特征变换,并使用scaled dot product attention的计算方法,将特征变化后的QKV进行结合。

多头顾名思义就是同时通过多个自注意力机制进行特征提取,图不同深度的颜色就代表了多头,h表示了多头的数量,完成多头的计算后,再使用一个线性层,将多组自注意力机制的计算结果进行结合再输出。共包含四个线性层。

以编码器中的“自注意力机制层”说明自注意力机制的计算过程,首先输入的数据是经过位置编码后,Are you ok?用黄色的词向量矩阵XX会分别和三个线性层,q  k 和v 做线性变换,得到三组结果。这个过程实际上并没有什么特别的,就是最基础的线性层计算。

代入到QKV的计算公式中,计算注意力机制的输出,本质上对QKV3组信息进行选择和融合,得到一个最终的注意力结果。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值