GOOGLE｜只有大模型才能理解你举的例子（In-context learning）是什么

本文链接：https://blog.csdn.net/qq_16949707/article/details/130675279

研究发现，大语言模型在in-contextlearning中能覆盖先验知识和学习输入-标签映射，而小模型则更依赖预训练的语义先验。翻转标签和语义无关标签的实验表明，大模型有更强的学习和适应能力，而指令调整可能增强了模型对语义先验的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

title：LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY

1.1 Motivation

背景知识：in-context learning，不需要训练模型，而只是给几个样例（任务的题目和相应答案答案）。
研究in-context learning (ICL)如何受到先验语义信息和输入标签映射的影响的，以及通过比较一系列不同大小的模型，发现in-context learning只在大模型里面有用。

1.2 Methods

利用两个实验来验证（ICL with flipped labels + ICL with semantically- unrelated label）
ICL with flipped labels（input–label mappings that contradict prior knowledge，输入与模型先验知识矛盾）：利用翻转的label信息作为输入，评估大小模型的输出受输入信息的影响程度（模型会有先验知识，看是否正的能理解当前输入的信息，覆盖原始先验知识）。
ICL with semantically-unrelated label：将模型的label设置成与语义不相关的，例如将boo/bar之类的答案变成negative/positive，迫使模型学习输入和label的映射关系，来验证是否真正的学到了语义中的信息。

1.3 Conclusion

flipped labels实验结论【大模型可以通过in-context learning覆盖原始模型中的先验知识，小模型不能】：虽然小型语言模型忽略上下文中呈现的翻转标签，并因此主要依赖于来自预训练的语义先验，但是当呈现与先验相矛盾的上下文中样本时，大型模型可以覆盖语义先验，尽管大型模型可能拥有更强的语义先验。
ICL with semantically-unrelated label【大语言模型能学习输入和label的映射关系，小的也不行】：大语言生孩子能学习线性分类任务。
ICL 加强了语义先验（模型内部）的使用和学习输入-标签映射的能力，但更多的是前者。
大模型还能做高纬度的线性分类任务，小模型不行。