[NIPS2017]Attention is all you need

本文深入解析Transformer模型,特别是Attention机制。通过Q、K、V的解释,阐述self-attention的工作原理,以及如何理解decoder self-attention中的Masked Multi-Head Attention。同时探讨公式(1)中的softmax(dkQKT)的意义,以及缩放因子dk的作用。
摘要由CSDN通过智能技术生成

原理源码讲解:https://www.jiqizhixin.com/articles/2018-11-06-10
https://nlp.seas.harvard.edu/2018/04/03/attention.html

这篇文章是火遍全宇宙,关于网上的解读也非常多,将自己看完后的一点小想法也总结一下。
看完一遍之后,有很多疑问,我是针对每个疑问都了解清楚后才算明白了这篇文章,可能写的不到位,只是总结下,下次忘记了便于翻查。
一:Q,K, V 到底是什么?
在传统的seq2seq框架下:
query: seq2seq模型中decode时隐层向量S t − 1 _{t-1} t1, 记作q t − 1 _{t-1} t1, Q就是多个query组成的矩阵Q
value: seq2seq模型中encode时的隐层向量h i _i i,记作v i _i i, V是输入序列中n个词的embedding矩阵
key: 对h i _i i做了一次先行映射得到的向量, 记作k i _i i,K同上
在本文的transformer下,结合文字和图:
(1) encoder self-attention
Q 就是input sequence( w 1 w_1 w1, w 2 w_2 w2, …, w i w_i wi, …, w n w_n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值