NAACL 2022 | 基于Prompt的文本生成迁移学习

最新推荐文章于 2024-08-03 21:14:32 发布

PaperWeekly

最新推荐文章于 2024-08-03 21:14:32 发布

阅读量1.9k

点赞数 4

文章标签：算法 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/126634819

版权

©PaperWeekly 原创 · 作者 | werge

研究方向 | 自然语言处理

OverView

预训练语言模型（PLM）通过微调在文本生成任务方面取得了显著进展。然而，在数据稀缺的情况下，微调 PLMs 是一项挑战。因此，开发一个通用且轻量级的，可以适应各种文本生成任务的模型，是非常重要的。

在本文中，作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 prompt，然后迁移转化为目标任务的目标 prompt。为了同时考虑任务级和实例级信息，作者还设计了一种自适应注意机制来导出目标 prompt。实验表明，PTG 方法获得了比微调方法更好的结果。

论文标题：

Learning to Transfer Prompts for Text Generation

收录会议：

NAACL 2022

论文链接：

https://arxiv.org/abs/2205.01543

Introduction

在自然语言处理中，文本生成旨在从输入数据自动生成人类语言中可理解的文本。通过在大规模通用语料库上预训练的大规模参数，GPT-3 等大规模预训练模型（PLMs）在文本生成方面取得了实质性进展。通过微调范式（finetune paradigm），PLMs 可以直接通过调整模型参数来适应各种文本生成任务。然而在现实场景中，不可避免地存在只有有限标记数据的任务，这就给微调模型带来了困难。

最近提出的基于提示了（prompt）的学习提供了一种潜在的解决方案 [1]。在这个范式中，文本生成任务可以通过包含任务特定信息的提示来解决。例如，T5 可以通过 propmt “summarize” 和 “answer the question” 分别将摘要问题和 QA 问题转化为一般的文本生成任务格式。由此，通过可学习的或手动设计的 prompt，可以让 PLMs 不通过微调直接应用到新的生成任务上。

尽管前景广阔，利用 prompt 指导的文本生成仍存在两大挑战。首先，已经发现 prompt 具有高度的任务特异性 [2]，也即一个任务上的 prompt 很难有效地转移或重用到新任务；其次，对于单个任务，即使是学习良好的 prompt 也可能不适用于大数据集中的所有数据实例 [3]。因此，在设计 prompt 时需要同时考虑任务级特征和实例级特征，从而使 prompt 有效迁移。

为了解决上述问题，作者提出了一种新的基于 prompt 的文本生成迁移学习方法 PTG。首先，从许多具有代表性的源任务中学习 source prompt，然后将这些 prompt 进行迁移，以生成 target prompt 执行目标任务。作者构建了一个多密钥存储网络，用于存储源提示和提示簇；设计了一种同时考虑任务和实例级信息的自适应注意力机制，以导出目标 prompt。

本文的方法可以有效的从特定数据实例的 prompt 中学习最合适的表示，考虑到了实例级特征，从而可以将现有任务的 prompt 更灵活地转移到新的文本生成任务中。作者在来自三组文本生成任务的14个数据集上测试了 PTG 方法，在全监督和 few-shot 实验中，PTG 均取得了比微调范式有竞争性甚至更好的结果。

最低0.47元/天解锁文章

PaperWeekly

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
NAACL 2022 | 基于Prompt的文本生成迁移学习

©PaperWeekly 原创 ·作者 |werge研究方向|自然语言处理OverView预训练语言模型（PLM）通过微调在文本生成任务方面取得了显著进展。然而，在数据稀缺的情况下，微调 PLMs 是一项挑战。因此，开发一个通用且轻量级的，可以适应各种文本生成任务的模型，是非常重要的。在本文中，作者提出了一种新的基于 prompt 的文本生成方法 PTG。首先针对几类源任务分别学习最优的 ...
复制链接

扫一扫