1. ELMO的基本原理是什么 ELMO采用了典型的两阶段过程: 第一个阶段是利用语言模型进行预训练 第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中 1.1第一阶段:利用语言模型进行预训练 下图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,其中单词(token)特征这一块采用的是单词的embedding或者采用字符卷积得到其embedding表示 语言模型训练的任务目标是根据单词 的上下文去 W i W_i