【论文】PLM的下一步

Elffffffff

已于 2022-09-24 11:20:26 修改

阅读量1.7k

点赞数

文章标签：自然语言处理

于 2022-04-27 14:51:59 首次发布

本文链接：https://blog.csdn.net/elf1110/article/details/124449161

版权

本文探讨了预训练语言模型（PLM）面临的‘不可能三角’挑战，即在保持模型规模适中、卓越的小样本学习能力和高级微调性能之间取得平衡。文章提出通过多阶段策略来解决这一问题，并强调了知识蒸馏、数据增强等技术在克服局限中的作用。

摘要由CSDN通过智能技术生成

Impossible Triangle: What’s Next for Pre-trained Language Models?

论文链接：https://arxiv.org/abs/2204.06130

Abstract

PLM模型的不可能三角形：1) 中等模型大小，2) 最先进的小样本学习能力，3) 最先进的微调能力。

文章认为，所有现有的 PLM 模型都缺乏不可能三角中的一个或多个属性。

为了弥补 PLM 的这些缺失特性，人们提出了各种技术，例如知识蒸馏、数据增强和快速学习，这不可避免地为 PLM 在实际场景中的应用带来了额外的工作。

文章提供对 PLM 未来研究方向的见解，以实现不可能三角，并将任务分解为几个关键阶段。

Background

从 BERT (Devlin et al., 2018) 和 GPT-2 (Radford et al., 2019) 开始，自监督预训练后监督微调的范式取得了巨大成功，刷新了许多 NLP 领域.

但超大规模的PLM模型不能广泛应用。

Impossible Triangle

不可能三角中 PLM 的当前障碍如上图。

P1：中等模型大小，P2：最先进的小样本学习能力，P3：最先进的监督学习能力.

这三个属性对应 PLM 实际应用的三个要求：

P1 是使用合理数量的计算资源进行高效部署； P2 适用于零或非常标记数据很少； P3适用于标注数据比较丰富的场景。

不可能三角形存在的一个潜在原因是，在当前阶段，只有当 PLM 达到具有足够模型容量的巨大规模时，才会出现强大的小样本学习能力。

PLM 实现了不可能三角中的所有三个属性，但其中许多已经获得了其中的一两个功能。

中等规模的 PLM（带有 P1 + P3），可实现高效的模型调优和部署。然而，这些模型通常具有相对较弱的零/少样本能力，这意味着使用此类模型取决于目标域中足够的标记数据。

超大规模 PLM（带 P2）。这些语言模型具有巨大的模型规模，并且在非常大规模的数据上进行了预训练。i) SL-PLM 的零/少样本性能低于有监督训练模型，并且 ii) 在微调之后，许多 SL-PLM 的性能仍然低于最佳微调的中等大小 PLM。

Current Remedies

Immense model size (Lack of P1).为了获得性能与 SL-PLM 相似的中等大小的模型，一种常见的做法是知识蒸馏（仍然存在两个问题。首先，学识渊博的学生很难达到与老师相同的表现。其次，SL-PLM 的巨大尺寸阻碍了有效的推理，使其作为教师模型不方便）

Inferior zero/few-shot performance (Lack of P2). 对于中等规模的 PLM 最为常见，这些 PLM 在微调后实现了 SoTA 性能，但零/少数样本学习能力相对较低。在许多情况下，当缺乏足够的标记数据时，希望部署这样的模型。

Inferior supervised training performance(Lack of P3).这在微调 SL-PLM 时很典型，其中计算资源有限或训练数据量不足以微调超大型模型。该性能可能对快速选择和训练数据非常敏感（Zhao 等人，2021 年），并且仍然不如具有监督学习的中等规模 PLM。

Future

文章认为不可能三角可以通过多阶段解决：

阶段 1。PLM 的开发目标是在三角形中实现一些所需的属性，同时改进其他缺失的属性。

第 2 阶段。为少数 NLP 任务之一开发实现所有三个所需属性的 PLM。

第 3 阶段。在第 1 阶段和第 2 阶段的进展的基础上，开发了在一般 NLP 任务上实现所有三个所需属性的 PLM。

Elffffffff

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文】PLM的下一步

Impossible Triangle: What’s Next for Pre-trained Language Models?AbstractPLM模型的不可能三角形：1) 中等模型大小，2) 最先进的小样本学习能力，3) 最先进的微调能力。文章认为，所有现有的 PLM 模型都缺乏可能不三角中的一个或多个属性。为了弥补 PLM 的这些缺失特性，人们提出了各种技术，例如知识蒸馏、数据增强和快速学习，这不可避免地为 PLM 在实际场景中的应用带来了额外的工作。文章提供对 PLM 未来
复制链接

扫一扫