NLP自然语言处理：文本表示总结 - 下篇（ELMo、Transformer、GPT、BERT）

最新推荐文章于 2023-03-15 20:54:15 发布

陈宸-研究僧

最新推荐文章于 2023-03-15 20:54:15 发布

阅读量5k

点赞数 6

分类专栏： NLP自然语言处理

本文链接：https://blog.csdn.net/qq_35883464/article/details/100173045

版权

本文详细介绍了NLP领域预训练技术的发展，从Word2vec的局限性到GloVe的改进，再到ELMo、GPT和BERT的创新。ELMo通过上下文调整实现词向量动态变化，GPT利用Transformer进行句子信息建模，BERT则提出了双向Transformer预训练，显著提升了NLP任务的性能。这些模型在预训练和Fine-tuning的两阶段过程中，不断优化词和句子的表示，以适应不同任务需求。

摘要由CSDN通过智能技术生成

上篇：https://blog.csdn.net/qq_35883464/article/details/100042899

再上篇中我们讲解了从one-hot到GloVe，都是2014年以前比较火的模型。那么下篇就来探讨最近几年比较火的文本表示，不谈具体推导公式（公式可以看一手论文），只谈解决了问题和最后结果，按照时间顺序和行业发展，详细讲述为什么会出现这个模型，这个模型又有什么缺点，下个模型是如何克服这些缺点的。

文本表示分类（基于表示方法）

离散表示
- one-hot表示
- 词袋模型与TF-ID
分布式表示
- 基于矩阵的表示方法
  - 降维的方法
  - 聚类的方法
- 基于神经网络的表示方法
  - NNLM
  - CBOW
  - Skip-gram
  - GloVe
  - ELMo
  - C&W
  - GPT
  - BERT

一、预训练

1.1 预训练在图像领域的应用

1.2 图像与NLP的粗略对应关系

二、ELMO：基于上下文的word-embedding

三、GPT: Transformer建模句子信息

3.1 Transformer/self-attention介绍

3.2 GPT介绍

3.2.1 GPT第一阶段：预训练pretrain

3.2.2 GPT第二阶段：Fine-tuning

四、BERT：预训练双向Transformer

4.1 深层双向的encoding

4.2 Masked LM

4.3 Encoder：Transformer

再上篇我们谈到了Word2vec，这个模型的缺点是缺乏了整体文本和当前词的关系，负样本采用sample的方式会缺失词的关系信息。

从而出现了GloVe，增加了全局的信息（共线矩阵），解决了Word2vec的缺点。这就是GloVe出现的原因。

但是还有一个关键性问题没有解决！

就是一次多意的情况，如果文章中出现了Apple，不知道是指科技公司还是水果，但是他们2个的词向量是一样的。

如何解决这个问题呢，就引出了下面的话题。

一、预训练

1.1 预训练在图像领域的应用

参考文章：《从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史》

预训练过程就是做图像或者视频领域的一种比较常规的做法，能明显促进应用的效果。

上图展示了这个过程，设计好网络结构以后，对于图像来说一般是CNN的多层叠加网络结构，可以先用某个训练集合比如训练集合A或者训练集合B对这个网络进行预先训练，在A任务上或者B任务上学会网络参数，然后存起来以备后用。

假设我们面临第三个任务C，网络结构采取相同的网络结构，在比较浅的几层CNN结构，网络参数初始化的时候可以加载A任务或者B任务学习好的参数，其它CNN高层参数仍然随机初始化。之后我们用C任务的训练数据来训练网络，此时有两种做法：

一种是浅层加载的参数在训练C任务过程中不动，这种方法被称为“Frozen”;

另外一种是底层网络参数尽管被初始化了，在C任务训练过程中仍然随着训练的进程不断改变，这种一般叫“Fine-Tuning”，顾名思义，就是更好地把参数进行调整使得更适应当前的C任务。一般图像或者视频领域要做预训练一般都这么做。

这么做的好处：解决了数据量少而要训练比较深的神经网络的问题

如果手头任务C的训练集合数据量较少的话，现阶段的好用的CNN等网络结构层数很深，几百万上千万参数量算起步价，训练数据少很难很好地训练这么复杂的网络，但是如果其中大量参数通过大的训练集合预先训练好直接拿来初始化大部分网络结构参数，然后再用C任务手头比较可怜的数据量上Fine-tuning过程去调整参数让它们更适合解决C任务，那事情就好办多了。

为什么这种预训练的思路是可行的？