点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
作者简介
李江梦,中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员
论文简介
今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文:BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction,该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,因此提出了BayesPrompt来学习包含域判别信息的提示,以对抗域无关知识的干扰。理论上,BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致;实验上,BayesPrompt在基准测试中取得了最先进的性能。
论文地址:
https://arxiv.org/abs/2401.14166
代码地址:
https://github.com/FF2127/bayesprompt
Context
概述
作为一种基于大规模预训练语言模型(PLMs)的新颖有效的微调范式,Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展,但这种方法仍然长期存在一个缺陷,即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题,即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整,这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此,该论文探索以去偏的方式近似下游任务的完整目标域,然后抽象这些域以生成判别性提示,从而为PLMs提供消除歧义的指导。在这种直觉的引导下,该论文提出了一种简单而有效的方法,即BayesPrompt,来学习包含域判别信息的提示,以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布,并进一步从近似分布中均匀采样代表性特征,以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,但其与Prompt-Tuning之间仍然存在联系,并且进一步证明了BayesPrompt的理论优势,即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上,BayesPrompt在基准测试中取得了最先进的性能。
动机与分析
受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构,PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而,对于特定的下游任务,PLMs遇到了发展瓶颈,尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说,PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理,特别是对少样本数据来说。为了弥补这一不足,近年来的研究提出了设计良好的提示以指导PLMs&#