Transformer--认识架构

pwd`×续缘`

已于 2024-07-26 10:13:37 修改

阅读量653

点赞数 28

分类专栏：自然语言处理文章标签： transformer 深度学习人工智能 python nlp

于 2024-07-25 17:51:29 首次发布

本文链接：https://blog.csdn.net/njhniubi/article/details/140695517

版权

8 篇文章 0 订阅

订阅专栏

简单认识Transformer模型的架构

🐵Transformer的诞生以及优势

🐵Transformer的诞生以及优势

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET，roBERT等模型击败了BERT，但是他们的核心没有变，仍然是：Transformer。

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势:

1、Transformer能够利用分布式GPU进行并行训练，提升模型训练效率.
2、在分析预测更长的文本时, 捕捉间隔较长的语义关联效果更好.

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, 文本生成等. 同时又可以构建预训练语言模型，用于不同任务的迁移学习.
在接下来的架构分析中, 我们将假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作, 因此很多命名方式遵循NLP中的规则. 比如: Embeddding层将称作文本嵌入层, Embedding层产生的张量称为词嵌入张量, 它的最后一维将称作词向量等

关注

专栏目录