OpenAI GPT-小记

论文:OpenAI 《Improving Language Understanding by Generative Pre-Training》

1 前言
监督学习需要大量的,有标记的数据,而收集数据,对数据进行标注耗时又费力。此外,无监督学习解决了人工标注数据的瓶颈,它在可获取原始数据增多的趋势下,仍能够实现很好的扩展。因此。本文提出了一种对自然语言理解任务的半监督方法,融合了无监督的预训练(pre-training)和有监督的微调(fine-tuning)过程,目标是学习一个通用的语言表示,可以经过很小的调整就应用在各种任务中。
2 模型
GPT采用两阶段过程,第一个阶段是利用语言模型进行预训练(无监督预训练),第二阶段通过Fine-tuning的模式解决下游任务(监督模式)。GPT模型如下:GPT模型
2.1 无监督的预训练
(1)给定无标签语料库U={u1, . . . , un},使用标准语言建模目标来最大化以下可能性:
在这里插入图片描述
k是基于语境窗口的大小,条件概率P表示在参数下采用神经网络建模的可能性(下一个单词仅和前k个单词有关)。训练参数可以通过梯度下降获得。
(2)GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动(多头+自注意力+前馈)。
在这里插入图片描述
在这里插入图片描述
Wp 是单词位置的 Embedding,We 是单词的 Embedding。用 voc 表示词汇表大小,pos 表示最长的句子长度,dim 表示 Embedding 维度,则 Wp 是一个 pos×dim 的矩阵,We 是一个 voc×dim 的矩阵。
h0代表此时输入的序列特征,得到输入h0 之后,需要将 h0 依次传入 GPT 的所有 Transformer Decoder 里,最终得到 ht。
2.2 有监督的微调
(1)拿简单分类任务举例,假设我们有带标签的数据集C,对于输入序列[x1 ,x2 ,…xm ]以及标签y,首先将输入序列输入到预训练模型中,得到 transformer 最后一层的输出 h l m {h^m_l} hlm,然后再经过全连接层与softmax,得到预测的概率。简单分类任务的目标函数是在这里插入图片描述
在这里插入图片描述
(2)具体微调时结合了语言模型的部分
在这里插入图片描述
不同的任务有不同的输入构造方式,但大同小异,如下图所示
在这里插入图片描述
3 总结
(1)特征抽取使用了 transformer;
(2)特征抽取时是单向的,即该语言模型只使用上文预测当前词,而不使用下文;
(3)进行下游任务时,直接在预训练模型上进行改造。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值