预训练语言模型

最新推荐文章于 2024-07-30 10:39:03 发布

DecafTea

最新推荐文章于 2024-07-30 10:39:03 发布

阅读量2.2k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/DecafTea/article/details/112971569

版权

『预训练语言模型分类』

单向特征、自回归模型（单向模型）：
ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0
双向特征、自编码模型（BERT系列模型）：
BERT/ERNIE/SpanBERT/RoBERTa
双向特征、自回归模型“
XLNet

『各模型之间的联系』

传统word2vec无法解决一词多义，语义信息不够丰富，诞生了ELMO
ELMO以lstm堆积，串行且提取特征能力不够，诞生了GPT
GPT 虽然用transformer堆积，但是是单向的，诞生了BERT
BERT虽然双向，但是mask不适用于自编码模型，诞生了XLNET
BERT中mask代替单个字符而非实体或短语，没有考虑词法结构/语法结构，诞生了ERNIE
为了mask掉中文的词而非字，让BERT更好的应用在中文任务，诞生了BERT-wwm
Bert训练用更多的数据、训练步数、更大的批次，mask机制变为动态的，诞生了RoBERTa
ERNIE的基础上，用大量数据和先验知识，进行多任务的持续学习，诞生了ERNIE2.0
BERT-wwm增加了训练数据集、训练步数，诞生了BERT-wwm-ext
BERT的其他改进模型基本考增加参数和训练数据，考虑轻量化之后，诞生了ALBERT

「 1.ELMO 」
“Embedding from Language Models"

NAACL18 Best Paper

传统word2vec无法解决一词多义，语义信息不够丰富，诞生了ELMO
ELMO以lstm堆积，串行且提取特征能力不够，诞生了GPT

特点：传统的词向量（如word2vec）是静态的/上下文无关的，而ELMO解决了一词多义；ELMO采用双层双向LSTM
缺点：lstm是串行，训练时间长；相比于transformer，特征提取能力不够（ELMO采用向量拼接）
使用分为两阶段：预训练+应用于下游任务，本质就是根据当前上下文对Word Embedding进行动态调整的过程：

用语言模型进行预训练

左边的前向双层LSTM是正方向编码器，顺序输入待预测单词w的上文；右边则是反方向编码器，逆序输入w的下文
训练好之后，输入一个新句子s，每个单词都得到三个Embedding：1）单词的Word Embedding 2）第一层关于单词位置的Embedding 3）第二层带有语义信息的Embedding（上述的三个Embedding 、LSTM网络结果均为训练结果）
做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。如QA任务：输入Q/A句子，对三个Embedding分配权重，整合生成新的Embedding