1、背景介绍
2018年10月,Google发出一篇论文 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》BERT模型横空出世,并横扫NLP领域11项任务的最佳成绩!
而在BERT中发表重要作用的结构就是Transformer,之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,任然是:Transformer
2、Transformer的优势
- Transformer能够利用分布式GPU进行并行训练,提升模型训练效率。
- 在分析预测更长的文本时,捕捉间隔较长的语义关联效果更好。
2.1 认识Transformer架构
Transformer模型的作用:
基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务如机器翻译文本生成等.同时又可以构建预训练语言模型,用于不同任务的迁移学习.
transformer:总体架构图
Transformer:总体架构可分为四个部分
- 输入部分
- 输出部分
- 编码器部分
- 解码器部分
输入部分包含:
- 源文本嵌入层及其位置编码器
- 目标文本嵌入层及其位置编码器
输出部分包含:
- 线性层
- softmax层
编码器部分:
- 由N个编码器层堆叠而成
- 每个编码器由两个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个前馈全连接子层和规范化以及一个残差连接
解码器部分:
- 由N个解码器堆叠而成
- 每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
内容总结于:B站视频(个人感觉很好)