OpenAI GPT-小记

最新推荐文章于 2024-05-14 09:23:54 发布

绝不认输的程序媛

最新推荐文章于 2024-05-14 09:23:54 发布

阅读量383

点赞数

分类专栏： NLP 文章标签： gpt

本文链接：https://blog.csdn.net/qq_41183751/article/details/111603365

版权

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

论文：OpenAI 《Improving Language Understanding by Generative Pre-Training》

1 前言
监督学习需要大量的，有标记的数据，而收集数据，对数据进行标注耗时又费力。此外，无监督学习解决了人工标注数据的瓶颈，它在可获取原始数据增多的趋势下，仍能够实现很好的扩展。因此。本文提出了一种对自然语言理解任务的半监督方法，融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程，目标是学习一个通用的语言表示，可以经过很小的调整就应用在各种任务中。
2 模型
GPT采用两阶段过程，第一个阶段是利用语言模型进行预训练（无监督预训练），第二阶段通过Fine-tuning的模式解决下游任务（监督模式）。GPT模型如下：
2.1 无监督的预训练
（1）给定无标签语料库U={u1, . . . , un}，使用标准语言建模目标来最大化以下可能性：
在这里插入图片描述
k是基于语境窗口的大小，条件概率P表示在参数下采用神经网络建模的可能性（下一个单词仅和前k个单词有关）。训练参数可以通过梯度下降获得。
（2）GPT 使用 Transformer 的 Decoder 结构，并对 Transformer Decoder 进行了一些改动（多头+自注意力+前馈）。
在这里插入图片描述

Wp 是单词位置的 Embedding，We 是单词的 Embedding。用 voc 表示词汇表大小，pos 表示最长的句子长度，dim 表示 Embedding 维度，则 Wp 是一个 pos×dim 的矩阵，We 是一个 voc×dim 的矩阵。
h0代表此时输入的序列特征，得到输入h0 之后，需要将 h0 依次传入 GPT 的所有 Transformer Decoder 里，最终得到 ht。
2.2 有监督的微调
（1）拿简单分类任务举例，假设我们有带标签的数据集C，对于输入序列[x1 ,x2 ,…xm ]以及标签y，首先将输入序列输入到预训练模型中，得到 transformer 最后一层的输出 ${h^m_l}$ ，然后再经过全连接层与softmax，得到预测的概率。简单分类任务的目标函数是在这里插入图片描述

（2）具体微调时结合了语言模型的部分

不同的任务有不同的输入构造方式，但大同小异，如下图所示

3 总结
（1）特征抽取使用了 transformer；
（2）特征抽取时是单向的，即该语言模型只使用上文预测当前词，而不使用下文；
（3）进行下游任务时，直接在预训练模型上进行改造。

绝不认输的程序媛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
OpenAI GPT-小记

论文：OpenAI 《Improving Language Understanding by Generative Pre-Training》1 前言监督学习需要大量的，有标记的数据，而收集数据，对数据进行标注耗时又费力。此外，无监督学习解决了人工标注数据的瓶颈，它在可获取原始数据增多的趋势下，仍能够实现很好的扩展。因此。本文提出了一种对自然语言理解任务的半监督方法，融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程，目标是学习一个通用的语言表示，可以经过很小的
复制链接

扫一扫