【GPT3】Language Models are Few-Shot Learners

NLP_wendi

已于 2022-08-05 15:52:26 修改

阅读量1.6k

点赞数

分类专栏：深度学习 NLP 文章标签： deep learning 自然语言处理

于 2022-04-25 21:27:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32275289/article/details/124414972

版权

深度学习同时被 2 个专栏收录

32 篇文章 10 订阅

订阅专栏

18 篇文章 1 订阅

订阅专栏

Paper Link: Language Models are Few-Shot Learners

在这里插入图片描述

GPT系列文章解读：
【GPT】Improving Language Understanding by Generative Pre-Training
【GPT2】Language Models are Unsupervised Multitask Learners

Abstract

在大规模文本语料上的预训练模型，然后在特定任务上微调后的NLP任务已经取得了长足的进步。然而针对任务无关的的模型结构，这种方法仍然需要在特定任务的成千上万的数据集上微调。对比来看，人类仅从少部分样本或简单的命令上，就可以学习新的语言任务。这里，我们极大程度地扩展语言模型，进而提高在通用任务、小样本上的性能，甚至可以比拟之前经过微调后的sota模型性能。具体地，我们训练了GPT-3的自回归语言模型，由1750亿个参数组成，10倍于之前的非稀疏语言模型。针对所有任务，GPT-3不用梯度更新或微调。仅仅通过任务和少量的说明信息就可以和模型交互。GPT-3在很多NLP数据集上都取得了很强的表现，包括：翻译、问答、完形填空以及即时推理、领域迁移、译码、三位数运算等。最后，GPT-3可以生成文章，人类很难区分是否由人撰写的。

Introduction

模型性能随着任务描述以及上下文示例的个数的增加而提升。尽管在某些任务上的结果仍然一版，但大模型以及语境中的示例提升这种趋势适用于大多数任务。另外强调一点，下图的学习曲线不涉及任何的梯度更新和微调，仅仅是增加了示例的个数。
在这里插入图片描述

Approach

GPT-3将下游任务类型划分为4个类别：

Fine-Tuning
Few-Shot
One-Shot
Zero-Shot

Model and Architectures

在这里插入图片描述

Training Dataset

在这里插入图片描述

Results

交叉熵损失和训练中的计算浮点数服从幂律分布，
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【GPT3】Language Models are Few-Shot Learners

在大规模文本语料上的预训练模型，然后在特定任务上微调后的NLP任务已经取得了长足的进步。然而针对任务无关的的模型结构，这种方法仍然需要在特定任务的成千上万的数据集上微调。对比来看，人类仅从少部分样本或简单的命令上，就可以学习新的语言任务。这里，我们极大程度地扩展语言模型，进而提高在通用任务、小样本上的性能，甚至可以比拟之前经过微调后的sota模型性能。具体地，我们训练了GPT-3的自回归语言模型，由1750亿个参数组成，10倍于之前的非稀疏语言模型。针对所有任务，GPT-3不用梯度更新或微调。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

NLP_wendi 谢谢您的支持。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。