transformer机制讲解_经典算法·从seq2seq、attention到transformer

本文介绍了seq2seq模型的基础结构,强调了其在自然语言处理中的重要性。接着,讨论了attention机制如何增强seq2seq模型,允许解码器在生成每个单词时利用编码器的多个关键向量。最后,详细阐述了Transformer模型的构成,包括Encoder和Decoder的各个子层,如self-attention和FeedForward Networks,并提到了在解码过程中的masking策略。
摘要由CSDN通过智能技术生成

6e19bece1e3f1856891beb99b163cb58.png

seq2seq

seq2seq是编码(encode)+解码(decode)的经典结构。在自然语言处理中有着重要的地位。偶然看到一位大佬的可视化工作,我将结合视频与简单公式做一个快速的总结。所有的工作是基于自然语言处理中机器翻译的工作展开的。

b2909422c39d080a6ffd2f6dccb814f0.png
机器翻译中的seq2seq模型https://www.zhihu.com/video/1066356082309410816

每一个纯色方框是表示一个RNN基本单元。在编码的过程中,我们将每一个词的向量形式依次输入RNN中,结合当前的隐含向量得到下一个时刻的隐含向量。第一个RNN的隐含向量为空。编码阶段最后得到隐含向量,然后传给解码单元。解码单元依次的解码出翻译的单词,直到出现

的停止符。

attention

seq2seq模型的编码与解码的连接点仅仅是编码单元输出的隐含向量,总是缺少更多的有用的信息。attention就是希望能够在解码每个单词的时候能够考虑到之前编码器中重要的隐含向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值