Transformer论文详解，论文完整翻译（三）

最新推荐文章于 2024-04-02 00:09:08 发布

ws_nlp_

最新推荐文章于 2024-04-02 00:09:08 发布

阅读量396

点赞数

分类专栏： # nlp：论文文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33624866/article/details/106577477

版权

nlp：论文专栏收录该内容

17 篇文章 3 订阅

订阅专栏

Transformer论文详解，论文完整翻译（三）

第二章背景

减少序列计算的方法有几种形式，建立超强的GPU，ByteNet和ConvS2S，这些都是用cnn作为基本模块，并行计算所有输入和输出位置的隐层表示。在这些模型中，计算开销与两个输入或者输出的位置相关，随着距离的增加而增加，ConvS2S是线性的而ByteNet是对数的，这让学习长距离依赖变得困难。在Transformer中，计算开销减少到一个常量，即使计算开销变少，依然有一个较好的效果因为使用了对位置的加权attention，我们使用的Multi-Head attention效果描述在3.2节。

self-attention，也叫intra-attention，是一种attention结构，这种结构与序列中不同位置有关，用来计算序列表示。self-attention已经被成功的用于很多任务中，包括阅读理解，摘要，文本蕴含和学习任务依赖的句子表示。

End-to-end的记忆网络使用循环attention来代替序列都循环。在简单的语言问答和语言模型上取得了较好的效果。

据我们所知，Transformer是第一个完全依赖self-attention来计算输入和输出表示，而不使用类似与RNN和卷积的序列校准的转换模型。在下面几章中，我们将描述Transformer，self-attention的动机，讨论我们模型的优点。

（本人总结，请勿转载）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文详解，论文完整翻译（三）

Transformer论文详解，论文完整翻译（三）第二章背景减少序列计算的方法有几种形式，建立超强的GPU，ByteNet和ConvS2S，这些都是用cnn作为基本模块，并行计算所有输入和输出位置的隐层表示。在这些模型中，计算开销与两个输入或者输出的位置相关，随着距离的增加而增加，ConvS2S是线性的而ByteNet是对数的，这让学习长距离依赖变得困难。在Transformer中，计算开销减少到一个常量，即使计算开销变少，依然有一个较好的效果因为使用了对位置的加权attention，我们使用的Mul
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。