什么是 Transformer

Transformer是Google在2017年提出的一种基于注意力机制的NLP模型,它通过Multi-Head Attention完全替代了RNN,解决了RNN的并行计算效率低和长期依赖问题。Transformer模型由Encoder和Decoder组成,每个单元包含Self-Attention和Position-wise Feed-forward Networks,通过Positional Encoding捕获序列位置信息。此外,残差连接和Layer Normalization有助于模型训练。Transformer因其高效并行性和强大的建模能力,在机器翻译任务中表现出色。
摘要由CSDN通过智能技术生成

**Transformer** 是由 Google 团队的 Ashish Vaswani 等人在 2017 年 6 月发表的论文 Attention Is All You Need 中提出的 NLP 经典之作,这个模型可以算是近几年来 NLP 领域的一个重大的里程碑,在它之前 seq2seq + Attention 就表现很强了,结果这篇论文一出来就引起了不小的轰动,它竟然不需要任何 RNN 等结构,只通过注意力机制就可以在机器翻译任务上超过 RNN,CNN 等模型的表现。

图片来源

Transformer 和 RNN 比较

在机器翻译任务中,虽然说在 Transformer 之前 Encoder-Decoder + Attention 结构已经有很好的表现了,但是其中的 RNN 结构却存在着一些不足。

  • 首先,RNN 模型不擅长并行计算。因为 RNN 具有序列的性质,就是当模型处理一个状态时需要依赖于之前的状态,这个性质不利于使用 GPU 进行计算,即使用了 CuDNN,RNN 在 GPU 上也还是很低效的。
  • 而 Transformer 最大的优点就是可以高效地并行化,因为它的模型内部的核心其实就是大量的矩阵乘法运算,能够很好地用于并行计算,这也是 Transform
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值