清华大学刘知远组:基于Prompt Tuning对低维本征任务子空间进行探索

614f20c6fc39be043f166254e58a9d89.gif

©作者 | 曾伟豪

学校 | 北京邮电大学

研究方向 | 对话摘要生成

c3ba2f8accd415f2ad490795ad008a67.png

论文标题:

Exploring Low-dimensional Intrinsic Task Subspace via Prompt Tuning

论文链接:

https://arxiv.org/abs/2110.07867

作者提出了大家都非常关心的问题:预训练模型是如何通过任务无关的预训练目标(比如 BERT 的 MLM, NSP; PEGASUS 的 GSG)来学到知识,并且能使用少量的数据就能将预训练模型运用到下游差异巨大的任务中(fine-tuning; prompt-tuning)。

在论文中,作者提出了假设:将预训练模型迁移到各种下游任务的优化问题可以重参数化为在同一低维参数子空间中只优化少数几个自由参数的问题,作者称之为 intrinsic task subspace. (本征子空间)如下图所示:

f12a1a09fb5d4928da7fbd7aecee71ae.png

注:Intrinsic dimension(ID)指的是用来表示数据或者近似函数所需要的最小的变量的数目。之前有工作直接将 PLM 的参数投影到线性子空间上,然后发现许多的 NLP 任务的 Intrinsic dimension 可以低于万维,这也启发了作者的工作)

如果上述假设成立,那么 task-specific optimization subspaces 的存在可以解释 PLMs 的通用性,同时本征子空间的低维度的特性可以解释 adaptations(fine-tuing; prompt-tuning)可以在相对小规模数据集上训练。从这个观点来看,PLMs 可以看成通用的 compressive frameworks,可以将不同任务的学习复杂度从高维降到低维。

为了证明上述假设,就需要找出 PLMs 的本征子空间(intrinsic task subspaces)。在论文中,作者通过 Prompt Tuning 来寻找公共 intrinsic subspace。因为直接让所有的 PLMs 的参数直接降维在计算上是困难的,并且 Prompt Tuning 在结构上不复杂,方便降维。

作者将论文中采用的方法称之为 intrinsic prompt tuning(IPT),IPT 主要包括两个阶段:multi-task subspace finding(MSF)和 intrinsic subspace tuning (IST)。在 MSF 的阶段,我们获得多任务下的经过优化的 soft prompts,然后训练一个自动编码器将这些 soft prompt 投影到低维的子空间上,最后将这些低维子空间上反向投影,重建成新的 prompt。这样经过优化的自动编码器就可以定义目标的本征子空间。在 IST 阶段,对于之前陌生的任务和数据,只需要调节在 MSF 阶段找到的低维子空间上的参数然后通过逆投影就可解决问题。

f0bf765d96ab1ac21ebf4ed28274c0b1.png

作者在实验上发现这个本征子空间不仅存在,而且维度非常低。在由 100 个随机任务上利用 MSF 得到的 5 维的本征子空间上,利用 IST 的方法可以对那些 100 个已经见过的任务(但是不同的数据)达到 prompt tuning 87% 的效果。对于 20 个没见过的任务,能达到 prompt tuning 65% 的效果。同时作者也表示通过  MSF 找到的本征子空间和 IPT 具有使用价值,比如可以用来分析 nlp 任务上的区别以及提升模型的稳定性。

de3168720fd57f26c7ab875d4cfa533b.png


Methodology

1.1 Preliminaries

对于给定的一系列 NLP 任务, , 其中既包括了 NLU 任务,又包括了 NLG 任务。但不失一般性,可以将任务定义为 , 其中 , ,目标就是习得映射函数: 。

1.2 Intrinsic Prompt Tuning

1.2.1 Multi-task Subspace Finding

在 MSF 的阶段,对于每一个下游任务 ,都会得到得到一个训练好的 soft prompts   。会使用 auto-encoder 将 投影到 维上,再逆投影回原来的维度得到重建后的 prompt 。

61c177f9b22a46773ac441f75eb511d2.png

其中 ,是用来投影到低维度的网络,是一层 FNN, 则是两层的感知机用来做逆投影:

e87c67bd32a3f1527e70fe910d3c4bae.png

同时还引入重建的 Prompt 在对应任务上的损失 。得到 MSF 阶段的训练目标:

440ba57a6d4e41c70a743d1d29ab8d89.png

其中 是控制两种 loss 比率的超参, 表示 和 的参数。

1.2.2 Intrinsic Subspace Tuning

在这个阶段,作者希望验证在 MSF 阶段找到的子空间的有效性。具体而言,保持在 MSF 阶段参数 以及预训练模型参数固定,对每一个任务,仅仅是调节本征子空间上 个自由参数,然后通过 逆投影成 soft prompts,目标函数如下:

d6e0f7827073412b557a00299281e3a9.png

28bf178b61d6d90c5787859004858a70.png


Experiment and Analysis

2.1 Experimental Settings

2.1.1 任务和数据集

从 Cross Fit Gym 随机抽取的 120 个 few-shot NLP 任务,既包含 NLU 又包括 NLG。每个任务 可以表示为 () 。

2.1.2 Evaluation Metrics

定义了两个指标 :

19d15475fc126f4e59e5fd2e37aa7a0b.png

其中 表示在任务 上 IPT 的结果对应的测试分数。 则表示在 prompt tuning()的表现或者在 fine tuning 上的表现( )。

在论文中,作者使用 作为主要评价指标, 作为辅助评价指标。

3.1.3 任务设置

将 120 个 NLP 任务划分成训练任务集 ,测试任务集 ,满足 。

在 MSF 的阶段,模型在 上训练,然后在 上测试 和 的结果。用来测试重建的 prompts 效果,这也为模型在 unseen data 和 tasks 上的表现提供一个经验性的上界。在 上测试了 soft prompts 重建的结果,用来探究 auto-encoder 对于未见过的 prompts 的重建能力。

在 IST 阶段,在 上使用 IST 来探究在子空间上的优化的表现。为了检验 IPT 的泛化能力,设计了两种任务:

1. unseen-data challenge. 在 上使用重新采样的 K-shot 来进行 IST 的过程。

2. unseen-task challenge. 在 上检验由 IPT 获得的 soft prompts 的效果。检验 IPT 在 unseen-task 上的效果,以此来证明不同 NLP 任务对应的子空间是不相互独立的。

2.2 Main Result

a0f7f149b240dbd67aa2c446152f4210.png

a207f92ffb0e98fc4045abcd2c048cb8.png

2.2.1 Q1 PLMs是否真的将few-shot设置下多样的NLP任务重参数化为低维子空间任务?

Figure 3(a)显示,在 unseen-data challenge 上,使用 的 IST 能够恢复完整的 prompt tuning 的效果的 80%;在 unseen-task challenge 上,只需调节本征子空间上的 5-100个 参数就可以达到 prompt tuning 的 60% 的效果。作者认为这为他们的猜想也就是 PLMs 将多样的 NLP 任务重参数化为低维子空间任务提供了证据。或者至少证明了这些任务被重参数化为低维子空间后存在交集,否则由 得到的子空间几乎不可能对 有效。

2.2.2 Q2 什么限制了IPT?

1. 在 MSF 阶段,重建 soft prompts 的效果甚至要优于原始的 prompt tunning。说明(1)MSF 可以通过促进在低维度上的多任务技能的分享来提升  prompt tuning 的表现。(2)在本征子空间上至少存在较优的解,能被 MSF 找到。但是即使是同样的训练数据 IST 也不能找到这些 good solutions, 因此 与 之间存在差距,说明采取的优化算法限制了 IST 的表现。

2.  与 存在差距,说明直接在未知任务上进行 soft prompts 的重构表现不佳。说明 MSF 的重构能力限制了它的泛化性。

3. IPT相对 fine-tuning 的表现要逊于相对于在 prompt-tunning 下的表现。是因为 prompt-tuning 在 few-shot 场景下要比 fine-tuning 弱,启发设计更有效的 prompt-tuning 算法。

2.2.3 Q3 任务类型的影响

Figure3 (c)-(f)表示

1. 分类任务和非分类任务存在较大的差异。

2. 当提升 时,non-cls 任务的表现会下降,cls 任务的表现会上升。这表明 non-cls 任务的本征子空间的维度可能远小于 cls 任务。


2.3 Analyses and Properties

2.3.1 Visualization of the Found Intrinsic Subspace

575351e811f68156fded042506da4946.png

将本征子空间的向量利用 PCA 进行降维

1. 分类任务和非分类任务之间较大的差异,这也解释了之前的问题。

2.  和 对应的向量在空间上是混合的,说明被找到的子空间对于未知的任务具有一定的泛化能力。

3. 从(C)和(D)中还可以观察到,属于同一类别的点表现为紧密的簇。说明学习到的 intrinsic 向量可以作为任务的低维表示,可以用来分析多种 NLP 任务之间的异同。

2.3.2 Impacts of the Number of Training Tasks

b84d612e220198e1897da9f04fec2d18.png

随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。

2.3.3 Impacts of the Number of Shots

059d889de9fc68ce0324dd0c33746326.png

随着训练数据的增加,MSF 和 IST 的差距逐渐缩小,说明数据的增加能够有利于 IST 的优化。

2.3.4 Improving Prompt Tuning Stability

191ac813a32c9d3766edb77303c34eaf.png

Prompt 是最不稳定的策略,会影响到 Prompt tuning 的使用,IPT 可以帮助 Prompt tuning 更稳定。可以用 IPT 的结果去初始化 Prompt Tuning。

2777e01928e899f9b974e78aafc7b0f7.png

Conclusion

作者并没有直接得出在 PLMs 上的不同 NLP 任务可以重参数化为在相同子空间上的优化。但找到了一个可信的结果:不同任务被重参数化在低维子空间上后存在交集,并且能被 MSF 找到。作者希望未来的工作能不能设计更好的框架去证明这个本征子空间的存在,使 IPT 具有更好的泛化性能。

更多阅读

03bac50e8367493689dc1b4a518d58b7.png

96ef328e24fba5eae9beb9bc908b044e.png

8cc37257eb4c27e140fec72f9dd903cf.png

a68deb6557d6b9127b4e1401f7e01690.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

439ef9d0be468d5905912410964af525.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

6e2ef664ea4e56b31de78df0d468c6e6.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值