【腾讯文档】大模型学习 https://docs.qq.com/s/2fc7DPC-jPH5R0bD07bcXW
b站:https://www.bilibili.com/video/BV11r421H7sC/
这篇论文《An Explanation of In-context Learning as Implicit Bayesian Inference》由斯坦福大学的研究人员撰写,主要研究了大型语言模型(如GPT-3)在上下文学习(in-context learning)方面的能力。上下文学习是指模型通过观察输入输出示例(prompt)来学习执行下游任务,而无需显式地预训练来学习这些示例。尽管这种能力令人惊讶,但目前还不清楚是什么使得上下文学习成为可能。
论文的主要内容包括:
- 引言:介绍了大型语言模型(LMs)的上下文学习能力,以及这种能力在实际应用中的潜力和挑战。
- 上下文学习设置:定义了预训练分布和提示分布,以及它们在上下文学习中的作用。预训练分布是通过从潜在概念中采样来生成文档的