Transformer是谷歌团队在2017年提出的一个模型,由论文《Attention is All You Need》提出;
Transformer基于 self-attention 自注意力机制的一种网络结构,其网络结构沿用了seq2seq的主体结构,由 Encoder-Decoder流程组成;
Transformer模型是后续 Bert模型 的核心;
Encoder也就是编码器,可以认为就是一个特征提取器,就是将原始的词转换为在语义空间里可以线性可分的特征;
Decoder也就是解码器,可以是一个线性分类器,或者是将编码器的表示映射为标号;
+、自然语义处理的4个阶段
Step1 RNN
Step2 Seq2Seq
Encoder 编码器 - 提取原始句子得意义
Decoder 解码器 - 将意义转换为其他语言表示
依靠句子意义这个中介,来解决翻译问题
Step3 Attention 注意力机制
Step4 SELF-Attention 自注意力机制 ------ Transformer
1、提取每个单词的意义
2、依据生成顺序选取所需要得信息
从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词;
自注意力层的输出会传递到前馈(feed-forward)神经网络中;
K/V矩阵的计算不是来自于某一个单词的输出,而是所有单词的输出汇总计算K/V矩阵;
+、使用场景
1、机器翻译
最早的使用场景
2、文本生成
3、聊天机器人