一、词袋 二、Word_embedding 三、预训练模型 3.1:ELMO 解RNN的语言模型 就是预测下一个token,训练好了之后,推知上下文不同,那么同一个token的表示也不同。 也可以双向: 不同隐层的weight sum 3.2 Bert BERT