大模型相关论文100篇短笔记【 2023-04-17】

最新推荐文章于 2024-07-23 16:40:54 发布

u013250861

最新推荐文章于 2024-07-23 16:40:54 发布

阅读量250

点赞数

分类专栏： LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/132548416

版权

LLM 专栏收录该内容

108 篇文章 223 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

自ChatGPT诞生以来，我也读了不少论文了，攒够100篇，分享一下。

有些不算严格意义上的论文，有些也不是严格意义上的大模型论文，反正笔记分类时算进来就当是大模型相关吧。

包括CV和NLP的，主要是大语言模型。

当然也包括不少水论文。

有些笔记可能存在错误等情况，是因为写的时候功力还远不足，理解不到位，也懒得回去改了。

仅供大家选论文参考。

我还是科研小白，和大家一起学习。

1.Language Models are Few-Shot Learners
GPT-3的论文。GPT-2还不够大，所以到了GPT-3就有了海量参数（1750亿）。
由于发现few-shot和one-shot的性能往往比zero-shot高很多（这三者都没有梯度传播，只是提供少量例子或者不提供），所以他们认为语言模型可以看做是元学习者，这导致GPT-3的学习方法也类似于元学习。GPT-3使用的是情景学习（in-context learning），GPT-3论文中说GPT-2也用了类似的方法，不过情景学习这个概念是GPT-3才提出来的。

按照我目前的理解，情景学习就是在预训练外循环中增加一些内部小循环，让它在训练过程中就学习到了一定的任务，这样在使用时

了解本专栏

超级会员免费看

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大模型相关论文100篇短笔记【 2023-04-17】

最早的做法（PLCa）输入只有C和Q，改进的做法（KAT/REVIVE）是加一个增强模块，用显式知识等用好K和V，而本文的方法Prophet是在PLCa的基础上增加了一个小模型来启发LLM，启发是通过写入prompt来进行的（few-shot模式），换句话说，其实仍然是增强prompt的方式来增强LLM的多模态处理能力。比较有趣的是，很多研究发现知识存储和整个网络的中间层有较强的联系，特别是中间层的前馈部分，这可能说明整个网络结构确实可能类似于：低层做初级表示，中层形成知识，高层决定输出。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。