【论文】PLM的下一步

 Impossible Triangle: What’s Next for Pre-trained Language Models?

论文链接:https://arxiv.org/abs/2204.06130

Abstract

PLM模型的不可能三角形:1) 中等模型大小,2) 最先进的小样本学习能力,3) 最先进的微调能力。

文章认为,所有现有的 PLM 模型都缺乏不可能三角中的一个或多个属性。

为了弥补 PLM 的这些缺失特性,人们提出了各种技术,例如知识蒸馏、数据增强和快速学习,这不可避免地为 PLM 在实际场景中的应用带来了额外的工作。

文章提供对 PLM 未来研究方向的见解,以实现不可能三角,并将任务分解为几个关键阶段。

Background

从 BERT (Devlin et al., 2018) 和 GPT-2 (Radford et al., 2019) 开始,自监督预训练后监督微调的范式取得了巨大成功,刷新了许多 NLP 领域.

但超大规模的PLM模型不能广泛应用。

Impossible Triangle

不可能三角中 PLM 的当前障碍如上图。

P1:中等模型大小,P2:最先进的小样本学习能力,P3:最先进的监督学习能力.

这三个属性对应 PLM 实际应用的三个要求:

P1 是使用合理数量的计算资源进行高效部署; P2 适用于零或非常标记数据很少; P3适用于标注数据比较丰富的场景。

不可能三角形存在的一个潜在原因是,在当前阶段,只有当 PLM 达到具有足够模型容量的巨大规模时,才会出现强大的小样本学习能力。

PLM 实现了不可能三角中的所有三个属性,但其中许多已经获得了其中的一两个功能。

中等规模的 PLM(带有 P1 + P3),可实现高效的模型调优和部署。然而,这些模型通常具有相对较弱的零/少样本能力,这意味着使用此类模型取决于目标域中足够的标记数据。

超大规模 PLM(带 P2)。这些语言模型具有巨大的模型规模,并且在非常大规模的数据上进行了预训练。i) SL-PLM 的零/少样本性能低于有监督训练模型,并且 ii) 在微调之后,许多 SL-PLM 的性能仍然低于最佳微调的中等大小 PLM。

Current Remedies

Immense model size (Lack of P1).为了获得性能与 SL-PLM 相似的中等大小的模型,一种常见的做法是知识蒸馏(仍然存在两个问题。首先,学识渊博的学生很难达到与老师相同的表现。其次,SL-PLM 的巨大尺寸阻碍了有效的推理,使其作为教师模型不方便)

Inferior zero/few-shot performance (Lack of P2). 对于中等规模的 PLM 最为常见,这些 PLM 在微调后实现了 SoTA 性能,但零/少数样本学习能力相对较低。在许多情况下,当缺乏足够的标记数据时,希望部署这样的模型。

Inferior supervised training performance(Lack of P3).这在微调 SL-PLM 时很典型,其中计算资源有限或训练数据量不足以微调超大型模型。该性能可能对快速选择和训练数据非常敏感(Zhao 等人,2021 年),并且仍然不如具有监督学习的中等规模 PLM。

Future

文章认为不可能三角可以通过多阶段解决:

阶段 1。PLM 的开发目标是在三角形中实现一些所需的属性,同时改进其他缺失的属性。

第 2 阶段。为少数 NLP 任务之一开发实现所有三个所需属性的 PLM。

第 3 阶段。在第 1 阶段和第 2 阶段的进展的基础上,开发了在一般 NLP 任务上实现所有三个所需属性的 PLM。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值