Transformer论文详解,论文完整翻译(三)

Transformer论文详解,论文完整翻译(三)

第二章 背景

减少序列计算的方法有几种形式,建立超强的GPU,ByteNet和ConvS2S,这些都是用cnn作为基本模块,并行计算所有输入和输出位置的隐层表示。在这些模型中,计算开销与两个输入或者输出的位置相关,随着距离的增加而增加,ConvS2S是线性的而ByteNet是对数的,这让学习长距离依赖变得困难。在Transformer中,计算开销减少到一个常量,即使计算开销变少,依然有一个较好的效果因为使用了对位置的加权attention,我们使用的Multi-Head attention效果描述在3.2节。

self-attention,也叫intra-attention,是一种attention结构,这种结构与序列中不同位置有关,用来计算序列表示。self-attention已经被成功的用于很多任务中,包括阅读理解,摘要,文本蕴含和学习任务依赖的句子表示。

End-to-end的记忆网络使用循环attention来代替序列都循环。在简单的语言问答和语言模型上取得了较好的效果。

据我们所知,Transformer是第一个完全依赖self-attention来计算输入和输出表示,而不使用类似与RNN和卷积的序列校准的转换模型。在下面几章中,我们将描述Transformer,self-attention的动机,讨论我们模型的优点。

(本人总结,请勿转载)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值