论文笔记--Language Models are Few-Shot Learners
1. 文章简介
- 标题:Language Models are Few-Shot Learners
- 作者:Brown T, Mann B, Ryder N, et al.
- 日期:2020
- 期刊:NIPS
2. 文章导读
2.1 概括
文章提出了大语言模型GPT-3,在GPT-2[1][2]的基础上进一步提升了模型的参数量和训练数据集。大量的数值实验表明,足够大的语言模型+one-shot或few-shot技巧可以在一些NLP任务上持平甚至超越fine-tuned模型的SOTA表现。
下面均用缩略语表示:
- FS: Few-Shot
- 0S: Zero-Shot
- 1S: One-Shot
- FT: Fine-Tuned
2.2 文章重点技术
2.2.1 数据集
CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。WebText[2]:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。Books Corpora:此外文章增加了两个来自网络的书籍语料库。Wiki:增加了英语百科语料库。
2.2.2 模型架构
模型架构基本