如何优雅的将Prompt应用于多任务场景？

最新推荐文章于 2024-08-01 11:00:24 发布

CReep~

最新推荐文章于 2024-08-01 11:00:24 发布

阅读量3.3k

点赞数

分类专栏： nlp Prompt 机器学习算法文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/justorderman/article/details/123600656

版权

机器学习算法同时被 3 个专栏收录

14 篇文章 3 订阅

订阅专栏

nlp

10 篇文章 0 订阅

订阅专栏

Prompt

3 篇文章 0 订阅

订阅专栏

近些年来，关于预训练语言模型（PLM）的研究数不胜数，Prompt-Tuning就是其中之一主打小巧轻便，更加普适高效，各种花式的魔改，例如 Prefix-tuning、P-tuning、Prompt-tuning等。如果对Prompt不大了解的朋友们可以移步我的另一篇文章https://mp.weixin.qq.com/s?__biz=MzkxMjExNTgwOQ==&mid=2247484234&idx=1&sn=e44ba444c3f12438671df91dffae03c3&chksm=c1109244f6671b52b482b67b569a978d85e4d6cbb150472ec9f1b3f9df11e9e9b1d609420df9&scene=178&cur_album_id=1513596827864989698#rd

一、背景

今天想和给大家介绍的工作是如何将Prompt应用于多任务的场景，常见的Multi-task模型一般的架构是底部共享参数，然后在顶层每个场景学习自己的私有参数典型的代表模型有MMoE等，也就是说关键点在于如何让模型学习每个任务的特定参数，今天解读的论文是在Transformer 中Muti-Head Self-Attention做的文章，在计算self-attention的时候融入特定任务的信息，那么到底怎么融入呢我们接下来进一步分析。

论文地址：https://export.arxiv.org/pdf/2203.00759.pdf

模型整体架构图：

模型架构图

二、核心Ideas

2.1、Prompt-Based Task-Conditioned Transformer

该部分主要是介绍如何将每个任务特定的prompt信息加入到训练任务中去，具体的做法是将场景信息 $P_v， P_k$ 分别与 $V, K$ 进行concat, 然后在与 $Q$ 去进行multi-head self-attention。

$Q_{τ}=X_{τ}W_q$ $K_{τ}=X_{τ}W_k$ $V_{τ}=X_{τ}W_v$ 其中 $Q_τ,K_τ, V_τ$ 维度都是 $L * h * d_h$ （如果不清楚这里的维度含义可以看下“Attention Is All You Need”）

$P_{τ,k}, P_{τ,v} \in R^{l*h*d_h}$ 其中l代表模板的长度，这个是个超常数可以自行调节。文中这两个vertors作者称之为hyper-prompts。

那么为什么会认为加入hyper-prompts会在多任务的场景下有效呢？

1） $P_{τ,k}$ 作为origin key的前缀会参与attention分布的计算 $softmax(Q_τK^{'T}_τ)$ , $P_{τ,k}$ 会直接与 query $Q_τ$ 进行直接交互这样的话每个token就融入了特定的任务信息。

2） $P_{τ，v}$ 可以作为特定任务的记忆，让多头注意力从中提取信息。

这里还有个问题任务特定的信息 $P_{τ,v}， P_{τ, k}$ 是如何来的呢？随机初始化？大家都知道 Transfomer含有多层mutil-head self-attention假设为m 层，如果我们有T个任务，那么我们为了加入特定任务信息参数量为 $T*m*l*h*d_h$ ，这样的话参数量是不大可以接受的，那么有没有别的办法呢，我们接着往下讲。

2.2 MTL-Prompt

这一部分作者讲的有点混乱，我讲下自己的见解，如果有错可以留言指出。上面我们说到为每一个任务，每一层mutlti-head self-attention 设定特定任务参数的话参数量有点不可接受，于是作者为每一个任务初始化一个全局的参数矩阵 $P_{τ}$ ，然后通过一系列转换得到 $P^{m}_{τ,k/v}$

$D^{m}_{k/v}\in R^{d*b}$ 作者称之为down-projection matrices; $U^{m}_{k/v}\in R^{d*b}$ 作者称之为up-projection matrices 这两个参数矩阵是所以任务共享的，那么问题来了，如果所有任务共享这两个参数矩阵的话那么会不会造成任务之间信息冲突的，毫无疑问是会的，于是作者又来了个私有参数** $D^{m}_{τ,k/v}$ ** ， $U^{m}_{τ,k/v}$ ，这两个参数是每个任务私有的。