NAACL 2022 | 基于Prompt的文本生成迁移学习

3ee7fa6423a278fbc1cef467c0103de8.gif

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

OverView

预训练语言模型(PLM)通过微调在文本生成任务方面取得了显著进展。然而,在数据稀缺的情况下,微调 PLMs 是一项挑战。因此,开发一个通用且轻量级的,可以适应各种文本生成任务的模型,是非常重要的。

在本文中,作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt,然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息,作者还设计了一种自适应注意机制来导出目标 prompt。实验表明,PTG 方法获得了比微调方法更好的结果。

46541e395dea65943b55a2752f4521b9.png

论文标题:

Learning to Transfer Prompts for Text Generation

收录会议:

NAACL 2022

论文链接:

https://arxiv.org/abs/2205.01543

5f3e53cb2fd0f78df2ed4e144310e0f5.png

Introduction

在自然语言处理中,文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数,GPT-3 等大规模预训练模型(PLMs)在文本生成方面取得了实质性进展。通过微调范式(finetune paradigm),PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中,不可避免地存在只有有限标记数据的任务,这就给微调模型带来了困难。

最近提出的基于提示了(prompt)的学习提供了一种潜在的解决方案 [1]。在这个范式中,文本生成任务可以通过包含任务特定信息的提示来解决。例如,T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此,通过可学习的或手动设计的 prompt,可以让 PLMs 不通过微调直接应用到新的生成任务上。

尽管前景广阔,利用 prompt 指导的文本生成仍存在两大挑战。首先,已经发现 prompt 具有高度的任务特异性 [2],也即一个任务上的 prompt 很难有效地转移或重用到新任务;其次,对于单个任务,即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此,在设计 prompt 时需要同时考虑任务级特征和实例级特征,从而使 prompt 有效迁移。

为了解决上述问题,作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先,从许多具有代表性的源任务中学习 source prompt,然后将这些 prompt 进行迁移,以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络,用于存储源提示和提示簇;设计了一种同时考虑任务和实例级信息的自适应注意力机制,以导出目标 prompt。

本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示,考虑到了实例级特征,从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法,在全监督和 few-shot 实验中,PTG 均取得了比微调范式有竞争性甚至更好的结果。

  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值