DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读

548 篇文章 422 订阅
322 篇文章 224 订阅
本文详细解读了Transformer模型中的Self-Attention机制,从概念到矩阵计算,再到多头注意力的理解,同时探讨了位置编码如何处理序列顺序问题。通过实例分析了训练过程中的损失函数,并介绍了后续相关研究工作。
摘要由CSDN通过智能技术生成

DL之Transformer:《The Illustrated Transformer—图解Transformer》翻译与解读

目录

Paper:《The Illustrated Transformer》翻译与解读

1、The Illustrated Transformer

2、A High-Level Look

3、Bringing The Tensors Into The Picture 将张量引入图像

4、Now We’re Encoding!

4.1、Self-Attention at a High Level

可视化Attention注意力机制机制原理

NLP之Attention:基于Tensor2Tensor库实现英语-德语的翻译并可视化翻译过程中的Attention注意力机制机制原理(包括输入、输出和各层的注意力权重)来帮助理解模型在翻译过程中的注意力分布/关注点

4.2、Self-Attention in Detail

第1步,生成3个向量

What are the “query”, “key”, and “value” vectors?

第2步,计算分数

第3步,将分数除以8

第4步,进行softmax操作

第5步 、值向量乘以softmax分数

第6步、对加权值向量求和得出self-attention的输出

4.3、Matrix Calculation of Self-Attention

第1步,计算Query矩阵、Key矩阵、Value矩阵

第2~6步,合成一个公式

4.4、The Beast With Many Heads 理解"多头兽"

一个图像理解self-attention

通过案例再次理解attention head

4.5、Representing The Order of The Sequence Using Positional Encoding—Transformer利用位置编码表征序列的顺序信息—来解决文本时序的问题

4.6、What might this pattern look like?

4.7、The Residual

5、The Decoder Side

6、The Final Linear and Softmax Layer 最后一个线性层+softmax层将输出浮点向量转为一个词

7、Recap Of Training

7.1、The Loss Function

法文翻译成英文—单词案例理解

如何比较两种概率分布?

法文翻译成英文—句子案例理解

如何选择最终输出?两种方法:greedy方法、beam search方法

8、Go Forth And Transform

9、Follow-up works:

Acknowledgements


Paper:《The Illustrated Transformer》翻译与解读

作者

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值