Contextualized Word Embedding
句子中的相同的token可能拥有不同的词向量,因为代表的意思不同。
Embdeding from Language Model(ELMO)
就是做到了相同的token拥有不同的词向量
正向的embedding跟反向过来的embedding连接起来
中间输出很多层的embedding,ELMO选择将其累加起来,并设置权重系数a1,a2
比如右图的Token、LSTM1,LSTM2 几层embedding有对应的权重(颜色深浅),权重必须通过训练学习所得。
Bidirectional Encoder Representations from Transformers
Bert关键训练Encoder, 简单说输入一个序列,输出一个序列。
bert采用mask机制,然后内部预测后填充mask,如果没有违和感,那么这两个字或者词向量之间就应该有比较相近的向量。
SEP 间隔句子
如果是做多分类,比如1、2、3、4等各个类别,那么就把类别放在句子最前面,给bert去训练。
bert解决qa问题,s是答案的开头,e是结尾
红色的向量决定s,蓝色的决定e
如果s在e后面,那么就是问题无答案
问题的答案就是d2d3
GPT (1542M)
是tansformer的decoder