大模型相关论文100篇短笔记【 2023-04-17】

自ChatGPT诞生以来,我也读了不少论文了,攒够100篇,分享一下。

有些不算严格意义上的论文,有些也不是严格意义上的大模型论文,反正笔记分类时算进来就当是大模型相关吧。

包括CV和NLP的,主要是大语言模型。

当然也包括不少水论文。

有些笔记可能存在错误等情况,是因为写的时候功力还远不足,理解不到位,也懒得回去改了。

仅供大家选论文参考。

我还是科研小白,和大家一起学习。


1.Language Models are Few-Shot Learners
GPT-3的论文。GPT-2还不够大,所以到了GPT-3就有了海量参数(1750亿)。
由于发现few-shot和one-shot的性能往往比zero-shot高很多(这三者都没有梯度传播,只是提供少量例子或者不提供),所以他们认为语言模型可以看做是元学习者,这导致GPT-3的学习方法也类似于元学习。GPT-3使用的是情景学习(in-context learning),GPT-3论文中说GPT-2也用了类似的方法,不过情景学习这个概念是GPT-3才提出来的。


按照我目前的理解,情景学习就是在预训练外循环中增加一些内部小循环,让它在训练过程中就学习到了一定的任务,这样在使用时

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值