【GPT2】Language Models are Unsupervised Multitask Learners

本文介绍了GPT系列模型如何通过无监督预训练在大规模文本数据上学习,并在多项NLP任务中取得优异表现。研究发现,模型的大小对零样本学习至关重要,最大的GPT-2模型在多个任务上达到或超过了SOTA。这些工作证明了预训练语言模型是构建能从自然语言中学习执行任务的有效途径。
摘要由CSDN通过智能技术生成

Paper Link: Language Models are Unsupervised Multitask Learners

在这里插入图片描述

GPT系列文章解读:
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务,通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题,由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值,达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数,在8个任务上有7个取得了sota结果。这些研究表明,这是一条构建语言处理系统的有效途径,该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型,在下游任务上不需要任何标号样本,也不用调整参数和修改网络结构。
在这里插入图片描述

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中,一些自然出现的法语英语互译的例子,如下表:
在这里插入图片描述

Model

作者构建了4个模型,词汇量扩展到50257个,文本序列长度从512到1024,更大的batch_size(512)
在这里插入图片描述
最小模型的参数有1.17亿,最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果:
在这里插入图片描述
GPT-2给出的最可靠的30个自然问题的答案:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

NLP_wendi

谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值