Abstract
- 很多 Pretrain + Fine-tuning 的模型在多种 NLP 任务上取得不错效果,虽然这种模式下网络结构是任务无关的,但仍然需要任务特定的 fine-tuning 数据集。
- 本文说明了增大语言模型可以提高 few-shot 的性能,具体来说,训练了一个 175 billion 参数的 自回归语言模型(GPT-3),并在测试了其 few-shot 性能。
- GPT-3 没有任何 fine-tuning,在预测阶段也没有任何参数更新,仅根据提供的样本中的文本(示例或指令)来进行任务推断及预测
- GPT-3 在多项 NLP 任务上表现出相当不错的性能,也在一些任务上还比较吃力。
Introduction
发展趋势
- 词向量(Word2Vec,GloVe)输入任务特定的网络结构
- 基于 RNN 和多层表示以及上下文状态被用于生成更强大的表达(依然应用于任务特定架构)
- 基于 RNN 和 Transformer 的预训练模型(如 GPT, BERT 等)经过 fine-tuning 之后可以直接应用在具体的任