论文笔记--Language Models are Few-Shot Learners

1. 文章简介

  • 标题:Language Models are Few-Shot Learners
  • 作者:Brown T, Mann B, Ryder N, et al.
  • 日期:2020
  • 期刊:NIPS

2. 文章导读

2.1 概括

  文章提出了大语言模型GPT-3,在GPT-2[1][2]的基础上进一步提升了模型的参数量和训练数据集。大量的数值实验表明,足够大的语言模型+one-shot或few-shot技巧可以在一些NLP任务上持平甚至超越fine-tuned模型的SOTA表现。
  下面均用缩略语表示:

  • FS: Few-Shot
  • 0S: Zero-Shot
  • 1S: One-Shot
  • FT: Fine-Tuned

2.2 文章重点技术

2.2.1 数据集

   CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。WebText[2]:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。Books Corpora:此外文章增加了两个来自网络的书籍语料库。Wiki:增加了英语百科语料库。

2.2.2 模型架构

  模型架构基本延续GPT-2的基于Transformer的网络架构。在其基础上增加了Sparse-Transformer的方法:即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力。此外模型在参数量上远超GPT-2,具体可见下一节的表格。

2.2.3 Few-shot Learining

  模型预测的时候可以直接采用0S/1S/FS方法。模型随机从训练集中采样 K K K个标注数据作为当前测试数据的上下文,再与当前用例的输入拼接传给模型,期望模型输出next tokens(要注意所有上下文+当前用例+期望输出的大小不能超过模型可接受的窗口大小2048)。
此时大名鼎鼎的In-Context Learning还没有问世,所以GPT-3的FS是随机采样的

3. GPT-1 & GPT-2 & GPT-3

GPT-1GPT-2GPT-3
论文Improving Language Understanding by Generative Pre-TrainingLanguage Models are Unsupervised Multitask LearnersLanguage Models are Few-Shot Learners
参数量117M1542M175B
max token51210242048
batch_size645123.2M
layers124896
dimension768160012288
vocabulary size400005025750257
网络架构同Transformer修改LN的位置,增加额外的LN,残差层正则同GPT-2,增加类sparse-Transformer
下游任务FT0SZS/FS

4. FT & FS 优缺点

  • FT:缺点很明显,即需要针对下游任务注入标注的数据,标注成本高;优点为FT之后的模型在特定领域通过表现非常好
  • FS:缺点为一般来说表现略低于FT;优点即不需要标注数据,或者需要数据很少。

5. 文章亮点

  文章在GPT-2的基础之上进行了优化,将原有的大语言模型提升了两个量级。数值实验表明,大语言模型+FS在一些任务上可以达到SOTA表现。但在翻译、文本蕴含等任务上距离SOTA还有一段距离。一个合理的解释为文章的所有优化目标均为单方向的,所以在涉及到需要考虑双向句子信息(如文本比较类任务)的时候往往效果低于双方向目标的模型

6. 原文传送门

Language Models are Few-Shot Learners

7. References

[1] Language Models are Unsupervised Multitask Learners
[2] GPT-2论文笔记
[3] Language Models are Unsupervised Multitask Learners
[4] GPT-1论文笔记
[5] GPT系列论文整理

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用提到了GPT-3模型在不同样本推理形式下的表现。其中,One-shot是指模型只使用一条样本进行推理,Few-shot是指模型使用少量样本进行推理(例如64条样本)。这些推理形式展示了GPT-3模型在处理自然语言任务时的能力。通过比较GPT-3模型和微调模型在TriviaQA数据集上的实验结果,可以看出,GPT-3模型在One-shot情况下已经能够与最好的微调模型相媲美,在Few-shot情况下甚至超过了微调模型的效果。这表明GPT-3模型在处理任务时具有较强的推理能力。然而,需要注意的是,GPT-3模型的参数量非常庞大(1750亿),在现有的硬件条件下,实际应用仍然存在一定的困难。此外,GPT-3模型采用的是从左到右的建模方式,对于需要结合上下文的NLU任务来说,GPT-3的效果可能不如预期。因此,虽然GPT-3模型在某些方面表现出强大的性能,但在实际应用中仍然面临一些挑战。引述了GPT-3模型在处理自然语言任务时的能力,特别是在One-shot和Few-shot情况下的表现。这些实验结果表明,GPT-3模型具有较强的推理能力,并且在某些情况下能够超越微调模型的效果。然而,需要注意的是,GPT-3模型的参数量非常庞大,这对于实际应用来说可能存在一些限制。此外,GPT-3模型的建模方式也可能对某些任务的效果产生一定影响。因此,在使用GPT-3模型时需要综合考虑其性能和适用性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [四两拨千斤,训练大模型的PEFT方法](https://blog.csdn.net/Solo95/article/details/131584584)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [论文笔记:Making Pre-trained Language Models Better Few-shot Learners](https://blog.csdn.net/qq_43183860/article/details/120660668)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值