【GPT2】Language Models are Unsupervised Multitask Learners

NLP_wendi

已于 2022-04-26 12:19:58 修改

阅读量1.4k

点赞数

分类专栏：深度学习 NLP 文章标签： deep learning 自然语言处理

于 2022-04-25 21:20:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32275289/article/details/124414786

版权

深度学习同时被 2 个专栏收录

32 篇文章 10 订阅

订阅专栏

18 篇文章 1 订阅

订阅专栏

本文介绍了GPT系列模型如何通过无监督预训练在大规模文本数据上学习，并在多项NLP任务中取得优异表现。研究发现，模型的大小对零样本学习至关重要，最大的GPT-2模型在多个任务上达到或超过了SOTA。这些工作证明了预训练语言模型是构建能从自然语言中学习执行任务的有效途径。

摘要由CSDN通过智能技术生成

Paper Link: Language Models are Unsupervised Multitask Learners

在这里插入图片描述

GPT系列文章解读：
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT3】Language Models are Few-Shot Learners

Abstract

问答、机器翻译、阅读理解和摘要等NLP任务，通常都是使用在特定任务数据集上监督学习的方法。我们提出了在百万级的网页数据WebText上无监督地训练模型。给定一篇文档和问题，由这个预训练模型生成的答案在CoQA任务上可以取得55%的F1值，达到甚至超过4个任务中的3个。语言模型的大小对零样本的迁移学习任务是非常重要的。最大的GPT-2模型包含15亿参数，在8个任务上有7个取得了sota结果。这些研究表明，这是一条构建语言处理系统的有效途径，该系统可以从自然发生的演进中学习执行任务。

introduction

提出了语言模型，在下游任务上不需要任何标号样本，也不用调整参数和修改网络结构。
在这里插入图片描述

Approach

Training Dataset

搜集的4500万网页链接中的WebText句子中，一些自然出现的法语英语互译的例子，如下表：
在这里插入图片描述

Model

作者构建了4个模型，词汇量扩展到50257个，文本序列长度从512到1024，更大的batch_size(512)
在这里插入图片描述
最小模型的参数有1.17亿，最大模型参数有15亿个。

Experiments

Language Modeling

和其他的 zero-shot learning model 对比结果：
在这里插入图片描述
GPT-2给出的最可靠的30个自然问题的答案：

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP_wendi 谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。