Language Models are Few-Shot Learners

68 篇文章 2 订阅
60 篇文章 1 订阅

Abstract

  • 很多 Pretrain + Fine-tuning 的模型在多种 NLP 任务上取得不错效果,虽然这种模式下网络结构是任务无关的,但仍然需要任务特定的 fine-tuning 数据集。
  • 本文说明了增大语言模型可以提高 few-shot 的性能,具体来说,训练了一个 175 billion 参数的 自回归语言模型(GPT-3),并在测试了其 few-shot 性能。
  • GPT-3 没有任何 fine-tuning,在预测阶段也没有任何参数更新,仅根据提供的样本中的文本(示例或指令)来进行任务推断及预测
  • GPT-3 在多项 NLP 任务上表现出相当不错的性能,也在一些任务上还比较吃力。

Introduction

发展趋势

  • 词向量(Word2Vec,GloVe)输入任务特定的网络结构
  • 基于 RNN 和多层表示以及上下文状态被用于生成更强大的表达(依然应用于任务特定架构)
  • 基于 RNN 和 Transformer 的预训练模型(如 GPT, BERT 等)经过 fine-tuning 之后可以直接应用在具体的任
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用提到了GPT-3模型在不同样本推理形式下的表现。其中,One-shot是指模型只使用一条样本进行推理,Few-shot是指模型使用少量样本进行推理(例如64条样本)。这些推理形式展示了GPT-3模型在处理自然语言任务时的能力。通过比较GPT-3模型和微调模型在TriviaQA数据集上的实验结果,可以看出,GPT-3模型在One-shot情况下已经能够与最好的微调模型相媲美,在Few-shot情况下甚至超过了微调模型的效果。这表明GPT-3模型在处理任务时具有较强的推理能力。然而,需要注意的是,GPT-3模型的参数量非常庞大(1750亿),在现有的硬件条件下,实际应用仍然存在一定的困难。此外,GPT-3模型采用的是从左到右的建模方式,对于需要结合上下文的NLU任务来说,GPT-3的效果可能不如预期。因此,虽然GPT-3模型在某些方面表现出强大的性能,但在实际应用中仍然面临一些挑战。引述了GPT-3模型在处理自然语言任务时的能力,特别是在One-shot和Few-shot情况下的表现。这些实验结果表明,GPT-3模型具有较强的推理能力,并且在某些情况下能够超越微调模型的效果。然而,需要注意的是,GPT-3模型的参数量非常庞大,这对于实际应用来说可能存在一些限制。此外,GPT-3模型的建模方式也可能对某些任务的效果产生一定影响。因此,在使用GPT-3模型时需要综合考虑其性能和适用性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [四两拨千斤,训练大模型的PEFT方法](https://blog.csdn.net/Solo95/article/details/131584584)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [论文笔记:Making Pre-trained Language Models Better Few-shot Learners](https://blog.csdn.net/qq_43183860/article/details/120660668)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值