Transformer架构

最新推荐文章于 2024-07-24 21:01:17 发布

OR_0295

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量285

点赞数 1

文章标签： transformer 深度学习人工智能自然语言处理数据挖掘

本文链接：https://blog.csdn.net/waywardG/article/details/126594972

版权

12 篇文章 4 订阅 ¥9.90 ¥99.00

订阅专栏

1 概述

Transformer的诞生
- 2018年10月，Google发出一篇论文《BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding》，BERT模型横空出世，并横扫NLP领域11项任务的最佳成绩!
- 而在BERT中发挥重要作用的结构就是Transformer，之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，仍是Transformer。
Transformer的优势
- 相比之前占领市场的LSTM和GRU模型，Transformer能够利用分布式GPU进行并行训练，提升模型训练效率。
- 在分析预测更长的文本时，捕捉间隔较长的语义关联效果更好。

Transformer模型的作用
- 基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务，如机器翻译、文本生成等；同时又可以构建预训练语言模型，用于不同任务的迁移学习。
声明
- 在接下来的架构分析中，我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作，因此很多命名方式遵循NLP中的规则。比如：Embeddding层将称作文本嵌入层，Embedding层产生的张量称为词嵌入张量，它的最后一维将称作词向量等。