继Transformer模型之后,我们再来介绍ELMo模型。
ELMo模型
看到前面的,看不到后面的
看到后面的,看不到前面的
Deep contextualized word representations (深层上下文的词语表征)
好的Embedding
- 捕捉语义和语法信息
- 能区分一词多义
引入前向 和 后向 语言模型 进行训练
词向量的表示基于当前的句子上下文
高层LSTM:捕捉上下文的词特征(语义)
底层LSTM:捕捉句法层次信息(语法)
LSTM 对长距离提取特征不如 transformer
GPT
早于bert, 基于transormer。
单向的语言模型。
mask 遮盖,只能看见前面的。(单向)
无监督训练
有监督微调