Transformer 详解

本文详细介绍了Transformer模型的encoder部分,其输入为X,输出为Xhidden,是一个三维向量。Encoder通过自注意力机制,利用所有单词的表示进行加权求和,权重由点积 softmax 得到。同时,文章也探讨了Decoder的工作原理以及整个训练过程的输入输出流程。
摘要由CSDN通过智能技术生成

Transformer 详解(encoder)

若encoder的输入为 X ∈ R b a t c h _ s i z e   ×   s e q u e n c e _ l e n X \in R^{batch\_size \space \times \space sequence\_len} XRbatch_size × sequence_len,则encoder的输出是是个向量, X h i d d e n ∈ R b a t c h _ s i z e   ×   s e q u e n c e _ l e n   ×   e m b e d d i n g _ d i m X_{hidden} \in R^{batch \_ size \space \times \space sequence \_ len\space \times \space embedding \_ dim} XhiddenRbatch_size × sequence_len × embedding_dim

Transformer 详解(decoder以及训练过程的输入输出等问题)

自注意力的另一种解释就是在编码某个单词时,就是将所有单词的表示(值向量)进行加权求和,而权重是通过该词的表示(键向量)与被编码词表示(查询向量)的点积并通过softmax得到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值