什么是 Transformer

最新推荐文章于 2024-04-27 10:12:31 发布

Alice熹爱学习

最新推荐文章于 2024-04-27 10:12:31 发布

阅读量976

点赞数

分类专栏：自然语言处理面试基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/108728558

版权

Transformer是Google在2017年提出的一种基于注意力机制的NLP模型，它通过Multi-Head Attention完全替代了RNN，解决了RNN的并行计算效率低和长期依赖问题。Transformer模型由Encoder和Decoder组成，每个单元包含Self-Attention和Position-wise Feed-forward Networks，通过Positional Encoding捕获序列位置信息。此外，残差连接和Layer Normalization有助于模型训练。Transformer因其高效并行性和强大的建模能力，在机器翻译任务中表现出色。

摘要由CSDN通过智能技术生成

**Transformer** 是由 Google 团队的 Ashish Vaswani 等人在 2017 年 6 月发表的论文 Attention Is All You Need 中提出的 NLP 经典之作，这个模型可以算是近几年来 NLP 领域的一个重大的里程碑，在它之前 seq2seq + Attention 就表现很强了，结果这篇论文一出来就引起了不小的轰动，它竟然不需要任何 RNN 等结构，只通过注意力机制就可以在机器翻译任务上超过 RNN，CNN 等模型的表现。

Transformer 和 RNN 比较

在机器翻译任务中，虽然说在 Transformer 之前 Encoder-Decoder + Attention 结构已经有很好的表现了，但是其中的 RNN 结构却存在着一些不足。

首先，RNN 模型不擅长并行计算。因为 RNN 具有序列的性质，就是当模型处理一个状态时需要依赖于之前的状态，这个性质不利于使用 GPU 进行计算，即使用了 CuDNN，RNN 在 GPU 上也还是很低效的。
而 Transformer 最大的优点就是可以高效地并行化，因为它的模型内部的核心其实就是大量的矩阵乘法运算，能够很好地用于并行计算，这也是 Transform

了解本专栏

Alice熹爱学习

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
什么是 Transformer

**Transformer** 是由 Google 团队的 Ashish Vaswani 等人在 2017 年 6 月发表的论文 Attention Is All You Need 中提出的 NLP 经典之作，这个模型可以算是近几年来 NLP 领域的一个重大的里程碑，在它之前 seq2seq + Attention 就表现很强了，结果这篇论文一出来就引起了不小的轰动，它竟然不需要任何 RNN 等...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。