【PTM】GPT：通过预训练改善语言模型

最新推荐文章于 2024-05-27 02:19:31 发布

阿泽的学习笔记

最新推荐文章于 2024-05-27 02:19:31 发布

阅读量1.1k

点赞数

分类专栏： Embedding 数据挖掘文章标签：自然语言处理算法机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_27075943/article/details/106244495

版权

今天阅读的是 OpenAI 2018 年的论文《Improving Language Understanding by Generative Pre-Training》，截止目前共有 600 多引用。

在这篇论文中，作者提出了一种半监督学习方法——Generative Pre-Training（以下简称 GPT），GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据，利用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务（如机器翻译），并在 12 个 NLP 任务中刷新了 9 个记录。

1. Introduction

NLP 领域中只有小部分标注过的数据，而有大量的数据是未标注，如何只使用标注数据将会大大影响深度学习的性能，所以为了充分利用大量未标注的原始文本数据，需要利用无监督学习来从文本中提取特征，最经典的例子莫过于词嵌入技术。

但是词嵌入只能 word-level 级别的任务（同义词等），没法解决句子、句对级别的任务（翻译、推理等）。出现这种问题原因有两个：

首先，是因为不清楚要下游任务，所以也就没法针对性的进行行优化；
其次，就算知道了下游任务，如果每次都要大改模型也会得不偿失。

为了解决以上问题，作者提出了 GPT 框架，用一种半监督学习的方法来完成语言理解任务，GPT 的训练过程分为两个阶段：Pre-training 和 Fine-tuning。目的是在于学习一种通用的 Representation 方法，针对不同种类的任务只需略作修改便能适应。

接下来我们详细介绍下 GPT。

2. GPT

GPT 训练过程分为两个阶段：第一个阶段是 Pre-training 阶段，主要利用大型语料库完成非监督学习；第二阶段是 Fine-tuning，针对特定任务在相应数据集中进行监督学习，通过 Fine-tuning 技术来适配具体任务。下图为 GPT 的架构图：

2.1 Pre-training

从上图我们可以看出，GPT 采用 Transformer 来代替 LSTM 作为特征提取器，并基于语言模型进行训练。这里只使用了 Transformer 的 Decoder 部分，并且每个子层只有一个 Masked Multi Self-Attention（768 维向量和 12 个 Attention Head）和一个 Feed Forward，共叠加使用了 12 层的 Decoder。

这里简单解释下为什么只用 Decoder 部分：语言模型是利用上文预测下一个单词的，因为 Decoder 使用了 Masked Multi Self-Attention 屏蔽了单词的后面内容，所以 Decoder 是现成的语言模型。又因为没有使用 Encoder，所以也就不需要 encoder-decoder attention 了。

对于给定的非监督语料库的 Token 序列 $U=\{u_1,..,u_n\}$ ，基于语言模型的目标函数：
$\; L_1(U) = \sum_ilog\;P(u_i|u_{i-k},...,u_{i-1};\Theta) \\$

最低0.47元/天解锁文章

阿泽的学习笔记

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【PTM】GPT：通过预训练改善语言模型

今天阅读的是 OpenAI 2018 年的论文《Improving Language Understanding by Generative Pre-Training》，截止目前共有 600 多引用。在这篇论文中，作者提出了一种半监督学习方法——Generative Pre-Training（以下简称 GPT），GPT 采用无监督学习的 Pre-training 充分利用大量未标注的文本数据，利用监督学习的 Fine-tuning 来适配具体的具体的 NLP 任务（如机器翻译），并在 12 个 NLP 任
复制链接

扫一扫