#今日论文推荐#NAACL 2022 | 基于Prompt的文本生成迁移学习
预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展。然而,在数据稀缺的情况下,微调 PLMs 是一项挑战。因此,开发一个通用且轻量级的,可以适应各种文本生成任务的模型,是非常重要的。
在本文中,作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt,然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息,作者还设计了一种自适应注意机制来导出目标 prompt。实验表明,PTG 方法获得了比微调方法更好的结果。
在自然语言处理中,文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数,GPT-3 等大规模预训练模型(PLMs)在文本生成方面取得了实质性进展。通过微调范式(finetune paradigm),PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中,不可避免地存在只有有限标记数据的任务,这就给微调模型带来了困难。最近提出的基于提示了(prompt)的学习提供了一种潜在的解决方案 [1]。在这个范式中,文本生成任务可以通过包含任务特定信息的提示来解决。例如,T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此,通过可学习的或手动设计的 prompt,可以让 PLMs 不通过微调直接应用到新的生成任务上。尽管前景广阔,利用 prompt 指导的文本生成仍存在两大挑战。首先,已经发现 prompt 具有高度的任务特异性 [2],也即一个任务上的 prompt 很难有效地转移或重用到新任务;其次,对于单个任务,即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此,在设计 prompt 时需要同时考虑任务级特征和实例级特征,从而使 prompt 有效迁移。为了解决上述问题,作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先,从许多具有代表性的源任务中学习 source prompt,然后将这些 prompt 进行迁移,以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络,用于存储源提示和提示簇;设计了一种同时考虑任务和实例级信息的自适应注意力机制,以导出目标 prompt。本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示,考虑到了实例级特征,从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法,在全监督和 few-shot 实验中,PTG 均取得了比微调范式有竞争性甚至更好的结果。
论文题目:Learning to Transfer Prompts for Text Generation
详细解读:https://www.aminer.cn/research_report/6310b2917cb68b460f117a17https://www.aminer.cn/research_report/6310b2917cb68b460f117a17
AMiner链接:https://www.aminer.cn/?f=cs