Transformer背后的数学

最新推荐文章于 2024-01-03 15:52:56 发布

L（刘二宝）

最新推荐文章于 2024-01-03 15:52:56 发布

阅读量690

点赞数

分类专栏：机器学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L_15156024189/article/details/105617499

版权

机器学习同时被 2 个专栏收录

34 篇文章 6 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

自然语言处理

9 篇文章 3 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Transformer模型在2017年的《Attention Is All You Need》论文中提出，摒弃了RNN和CNN，仅基于注意力机制。模型分为Encoder和Decoder，每个包含多层self-attention和Feed Forward网络。Encoder通过Input Embedding、Positional Encoding、multi-head self-attention等处理输入序列，Decoder则加入masked multi-head self-attention以避免未来信息泄露。Transformer在机器翻译任务中表现出优越性能。

摘要由CSDN通过智能技术生成

目录

Input Embedding

Positional Encoding

Scaled Dot-Product Attention

multi-head self-attention

Positional Encoding

masked multi-head self-attention

multi-head self-attention

Linear and softmax

Transformer，2017年12月在《Attention Is All You Need》论文中被提出。占主导地位的序列转换模型（sequence transduction models ）是基于编码器解码器结构的循环神经网络或者卷积神经网络。Transformer完全摒弃了这些，仅仅基于注意力机制（attention mechanisms）。在两个机器翻译任务实验中表明该模型在质量上更优，同时更可并行化，需要更少的训练时间。它也是第一个未使用RNN和CNN，仅仅依赖注意力机制的模型。模型整体结构如图：

从图来看ÿ

了解本专栏

超级会员免费看

L（刘二宝）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer背后的数学

Encoder 以机器翻译举例说明。假设输入序列，输出序列为，假设t时刻，Inputs为，的one-hot编码如下：，维度为n。Input Embedding 向量将作为Input Embedding输入，Input Embedding处理如下：（1）其中是权重矩阵（模型学习参数之一）。式子的维度关系如下：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

L（刘二宝） 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。