目录
写在最前:这是看了李宏毅老师的视频做的笔记
ELMO、bert、ERNIE、GPT都是预训练语言模型
- word embedding是根据词汇的上下文训练出来的
- 词向量的每一个维度代表了这个词的某些信息
- 用word embedding 当做某一个词汇的feature
在传统的embedding中,不同的word tokens只要属于同一个word type,那它们的word embedding就是一样的(即它们的vector是一样的),换句话说每一个word type对应一个embedding。这样有很多不足,因为属于同一个word type的不同的word tokens可能有不同的语义。
现在,我们希望每一个word token都有一个word embedding, 根据这个word token的上下文得出(contextualized word embedding)
ELMO:embeddings from language model
RNN的hiden layer(图中红色的框)输出的就是当前word token的word embedding
根据上文训练正向的word embedding, 根据下文训练反向的word embedding, 把正反向的vector拼接起来
ELMO原文使用了3种embedding乘以相应的weight 构成最终蓝色的embedding用在下游的任务中