目录
1 概述
- Transformer的诞生
- 2018年10月,Google发出一篇论文《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》,BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩!
- 而在BERT中发挥重要作用的结构就是Transformer,之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍是Transformer。
- Transformer的优势
- 相比之前占领市场的LSTM和GRU模型,Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。
- 在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。
2 初识Transformer架构
- Transformer模型的作用
- 基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务,如机器翻译、文本生成等;同时又可以构建预训练语言模型,用于不同任务的迁移学习。