向沐神学习笔记:GPT,GPT-2,GPT-3 论文精读【论文精读】GPT部分

系列文章目录

例如:



一、GPT

  1. 同样模型大小,比如一个亿模型大小的时候,bert的性能表现优于gpt,也就是未来的工作更愿意用bert这篇文章,因为我咬咬牙还能跑起来,但是gpt的实验实在跑不起来。

1、Abstract

Natural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment, and document classification. Although large unlabeled text corpora are abundant, labeled data for learning these specific tasks is scarce, making it challenging for discriminatively trained models to perform adequately. We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task. In contrast to previous approaches, we make use of task-aware input transformations during fine-tuning to achieve effective transfer while requiring minimal changes to the model architecture. We demonstrate the effectiveness of our approach on a wide range of benchmarks for natural language understanding. Our general task-agnostic model outperforms discriminatively trained models that use architectures specifically crafted for each task, significantly improving upon the state of the art in 9 out of the 12 tasks studied. For instance, we achieve absolute improvements of 8.9% on commonsense reasoning (Stories Cloze Test), 5.7% on question answering (RACE), and 1.5% on textual entailment (MultiNLI).自然语言理解包括文本蕴涵、问题回答、语义相似性评估和文档分类等广泛的不同任务。尽管大量的未标注文本语料库非常丰富,但用于学习这些特定任务的标注数据却非常稀少,这使得经过区分训练的模型难以充分发挥作用。我们证明,通过对一个语言模型进行生成性预训练,然后对每个特定的任务进行区分性微调,可以在这些任务上获得很大的收益。与之前的方法不同,我们在微调期间使用任务感知输入转换,以实现有效的转换,同时只需对模型架构进行最小的更改。我们在自然语言理解的广泛基准测试中证明了我们的方法的有效性。我们的通用任务不可知模型优于使用为每项任务专门设计的架构的区别性训练模型,在研究的12项任务中,有9项的最新水平得到了显著提高。例如,我们在常识推理(故事完形填空测试)、问题回答(RACE)和文本蕴涵(MultiNLI)方面分别获得了8.9%、5.7%和1.5%的绝对改进。
理解:自然语言任务很多,但是根据这些任务来标注的数据很少。We demonstrate that large gains on these tasks can be realized by generative pre-training of a language model on a diverse corpus of unlabeled text, followed by discriminative fine-tuning on each specific task.这句话表明,我们训练一个预训练的语言模型,接下来再在有标号的子任务上训练一个分辨的微调模型,这个方法在计算机视觉方面以及非常流行,但是在NLP领域不流行是因为没有像ImageNet那么大规模的标号的数据。 机器翻译方面可能有那么大的数据急,但是一张图片和一个句子的信息量不对等,图片的像素所携带的信息量大约为一句话携带信息量的十倍。也就是说我们要至少有1000w个标记好的句子才达到了训练的标准。gpt和bert的突破就是说我们可以用没有标记好的数据来进行预训练。gpt后面的文章又做了zero-shot又是一个突破。之前的word2vec也是用的没有标记好的数据,但是他那时候在下游应用是通过改变模型,这里gpt只需要改变模型的输入加稍微改变模型即可。

二、

1、

2、

3、

三、

1、

2、

3、

四、

1、

2、

3、

五、

1、

2、

3、

六、

1、

2、

3、

七、

1、

2、

3、

八、

1、

2、

3、

  • 19
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值