语言理解的四个粒度,字段理解、词的理解、句子的理解、篇章的理解
词向量,词的粒度
token类别还是整个句子的类别
词向量是静止的
预训练语言模型
底层特征可以复用
NLP技术发展
基于双向LSTM ELMO第一个预训练语言模型
横向左右双向建模得到上下文信息,纵向得到不同程度的特征信息
不直接参与模型训练,只是作为特征参与下游任务
解决了一词多义的问题
问题
GPT
更强的文本特征提取能力
直接参与下游的模型训练
针对下游任务的应用简化了模型结构设计
存在缺点
直接进行交互式语言训练
model-based效果更好
BERT模型的缺点
ernie基于全局实体信息的mask
ERNIE直接触发了BERT-wwm和spanBERT的诞生
ERNIE也不是最完美的,可以在预训练阶段构造多个任务进行充分训练
出现了ERNIE2.0,各个模型交替训练先训练A任务,再训练B任务,在一起训练A+B任务
预训练语言模型的发展
预训练语言模型的优势
NLP难点和发展过程
双塔结构
单塔结构