transformer-paper reading

最新推荐文章于 2024-08-20 17:56:21 发布

cuixuange

最新推荐文章于 2024-08-20 17:56:21 发布

阅读量494

点赞数 1

分类专栏： machine-learning 文章标签：自然语言处理

本文链接：https://blog.csdn.net/u014297722/article/details/105892363

版权

这篇博客详细解析了Transformer模型的架构，包括Encoder和Decoder的堆叠、多头注意力机制、位置编码、前向网络等核心组件。作者通过代码实现探讨了自注意力的计算优势，并指出多头注意力的数量、Dropout的重要性以及预训练的位置编码的效果。此外，还提到了Transformer的训练策略和实验结果。文章最后提及了未来将研究BERT论文的相关内容。

摘要由CSDN通过智能技术生成

论文原文: https://arxiv.org/abs/1706.03762
代码实现:https://github.com/Kyubyong/transformer
按照原文结构记录总结

#1.Model Architecture
1.1.Encoder&Decoder stacks
stacks = 6 transformer
sublayers = multi-head attention + FeedFormward
Embedding dimension = 512
主要学习代码实现: 1.self-attention 2.positional encoding 3.Masked
Encoder input = [batchsize,seq_length,512]
Encoder output = [batchsize,seq_length,512] ？？？？ key？

1.2.Attention
multi-heads = 8

a. Decoder Layer = 3 sublayers    
self-attention + Encoder-Decoder-attention + FeedwardNet   
Encoder-Decoder-attention = Keys,Values来自于Encoder; query来自于上一层的Decoderlayer   

b.Encoder self-attention,keys+values+querys来自于相同的位置      

c.Decoder self-attention,训练过程中masked操作,保证当前时间步的Decoder仅能看到左侧的单词信息

代码实现,主要关注self-attention的实现: