transformer-paper reading

这篇博客详细解析了Transformer模型的架构,包括Encoder和Decoder的堆叠、多头注意力机制、位置编码、前向网络等核心组件。作者通过代码实现探讨了自注意力的计算优势,并指出多头注意力的数量、Dropout的重要性以及预训练的位置编码的效果。此外,还提到了Transformer的训练策略和实验结果。文章最后提及了未来将研究BERT论文的相关内容。
摘要由CSDN通过智能技术生成

论文原文: https://arxiv.org/abs/1706.03762
代码实现:https://github.com/Kyubyong/transformer
按照原文结构记录总结

#1.Model Architecture
1.1.Encoder&Decoder stacks
stacks = 6 transformer
sublayers = multi-head attention + FeedFormward
Embedding dimension = 512
主要学习代码实现: 1.self-attention 2.positional encoding 3.Masked
Encoder input = [batchsize,seq_length,512]
Encoder output = [batchsize,seq_length,512] ???? key?

1.2.Attention
multi-heads = 8

a. Decoder Layer = 3 sublayers    
self-attention + Encoder-Decoder-attention + FeedwardNet   
Encoder-Decoder-attention = Keys,Values来自于Encoder; query来自于上一层的Decoderlayer   

b.Encoder self-attention,keys+values+querys来自于相同的位置      

c.Decoder self-attention,训练过程中masked操作,保证当前时间步的Decoder仅能看到左侧的单词信息   

代码实现,主要关注self-attention的实现:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值