#Paper Reading# Language Models are Few-Shot Learner

论文题目: Language Models are Few-Shot Learner
论文地址: https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
论文发表于: NIPS 2020
论文所属单位: OpenAI

论文大体内容
本文主要提出了GPT-3(Generative Pre-Training)模型,通过大模型pre-train进行In-context Learning,并在Zero-shot Learning、One-shot Learning和Few-shot Learning上进行实验,在NLU任务上有不错的表现,但也就只有较少的task上能比得上Fine-tune的SOTA。

Motivation
本文作者继续他们对于通用大模型GPT的愿景,增加训练数据,并把模型继续做大,然后实验观察在Zero-shot Learning、One-shot Learning和Few-shot Learning上的效果。

Contribution
①训练更通用的pre-train模型进行In-context Learning;
②在Zero-shot Learning、One-shot Learning和Few-shot Learning中有不错的表现;


1. GPT-3使用的方法跟GPT-2[1]基本一样,主要的区别是扩大了模型参数量(15亿 -> 1750亿个参数),训练数据集大小(40GB -> 570GB);

2. 本文使用In-context Learning的方式来实验Zero-shot Learning、One-shot Learning和Few-shot Learning;
①Fine-tuning: 对大的预训练模型进行Fine-tune是不容易的,所以就有了Prompt Learning和In-context Learning;
②Few-shot: 先给定K个example(K∈[10, 100]),再让模型预测。Few-shot Learning的优点是只需要提供很少的与目标任务相关的训练样本,而缺点是效果比Fine-tune的差;
③One-shot: 只给1个example;
④Zero-shot: 没有example;

3. GPT-3针对所有的task没有进行梯度更新或者Fine-tune,所以本文的实验更多是展示GPT的泛化能力和通用性;


实验
4. Language Modeling, Cloze, and Completion Tasks

5. Question Answering

6. Translation
训练数据集中93%都是英文。

7. SuperGLUE

参考资料
[1] GPT-2 https://blog.csdn.net/John159151/article/details/129098787
[2] GPT-1 https://blog.csdn.net/John159151/article/details/129062724
[3] GPT-3 Github https://github.com/openai/gpt-3


以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值