摘要:
微调预训练模型已被广泛证明在各种自然语言处理(NLP)任务中非常有效。然而,对整个模型进行微调在参数效率上是低效的,因为它总是为每个任务生成一个全新的模型。目前,许多研究提出仅微调一小部分参数,同时在不同任务之间共享大部分参数。这些方法表现出令人惊讶的良好性能,并且比完全微调的模型更稳定。然而,这类方法仍然没有得到很好的理解。一些自然问题随之而来:参数稀疏性是如何带来良好性能的?为什么模型比完全微调的模型更稳定?如何选择可调参数?
在本文中,我们首先根据这些方法选择要微调的参数的方式,将现有方法分为随机方法、基于规则的方法和基于投影的方法。然后,我们表明所有这些方法实际上都是稀疏微调模型,并对其进行了新的理论分析。我们指出,稀疏性实际上通过对原始模型施加正则化来控制稳定性的上界。这种稳定性导致更好的泛化能力,这在许多最近的研究工作中已被实证观察到。尽管我们的理论支持稀疏性的有效性,但如何选择可调参数仍然是一个未解决的问题。目前,随机方法和基于规则的方法没有利用特定任务的数据信息,而基于投影的方法则受到投影不连续性问题的困扰。
为了更好地选择可调参数,我们提出了一种新的二阶近似方法(SAM),该方法通过一个可解析求解的优化函数来近似原始问题。可调参数通过直接优化近似函数来确定。我们在多个任务上进行了广泛的实验。实验结果表明,我们提出的SAM模型优于许多强大的基线模型,并且验证了我们的理论分析。本文的源代码可以从以下链接获取:GitHub - fuzihaofzh/AnalyzeParameterEfficientFinetune: On the Effectiveness of Parameter-Efficient Fine-Tuning
引言:
对特定任务微调预训练模型的参数(Peters et al. 2018; Kenton and Toutanova 2019; Lan et al. 2020; Radford et al. 2018, 2019; Liu et al. 2019; Brown et al. 2020; Lewis et al. 2020; Raffel et al. 2020)已成为近年来自然语言处理(NLP)领域最有前景的技术之一。它在大多数 NLP 任务中实现了最先进的性能。然而,随着参数数量呈指数增长,达到数十亿(Brown et al. 2020)甚至数万亿(Fedus, Zoph, and Shazeer 2021),为每个下游任务保存完全微调的参数变得非常低效。许多最近的研究工作提出了一种参数高效的(Houlsby et al. 2019; Zaken, Ravfogel, and Goldberg 2021; He et al. 2021a)方法来解决这一问题,即仅微调一小部分原始参数,并为每个任务存储微调后的参数。除了参数高效模型的效率外,最近的研究还观察到,参数高效方法表现出令人惊讶的良好性能。这些模型更稳定(He et al. 2021b; Lee, Cho, and Kang 2019; Houlsby et al. 2019; Zaken, Ravfogel, and Goldberg 2021; Sung, Nair, and Raffel 2021; Liu et al. 2021; Ding et al. 2022),甚至在某些任务上比完全微调的模型取得了更好的整体分数(Lee, Cho, and Kang 2019; Houlsby et al. 2019; Zaken, Ravfogel, and Goldberg 2021; Sung, Nair, and Raffel 2021; Liu et al. 2021; Xu et al. 2021; Guo, Rush, and Kim 2021; He et al. 2021a; Ding et al. 2022)。目前,为什么参数高效模型能在许多流行工作中提高稳定性和性能仍不清楚。
在本文中,我们首先根据这些方法选择可调参数的方式,将现有方法分为三类(即随机方法、基于规则的方法和基于投影的方法)。然后,我们定义了广义的稀疏微调模型,并指出大多数现有的参数高效模型实际上是稀疏微调模型。随后,我们引入稀疏微调模型的广泛使用的逐点假设稳定性,并从理论上表明稀疏性实际上控制了稳定性的上界。基于稳定性分析,我们进一步给出了稀疏微调模型的泛化界限的理论分析。尽管现有的参数高效模型取得了令人鼓舞的结果,但如何选择合适的参数仍然是一个挑战性问题,因为这是一个 NP-hard 问题。目前,随机(Lee, Cho, and Kang 2019)和基于规则(Zaken, Ravfogel, and Goldberg 2021; Han, Mao, and Dally 2015; Houlsby et al. 2019; Pfeiffer et al. 2020)方法提出优化固定的参数。这些方法简单易行,但它们没有利用特定任务的数据信息。为了解决这一问题,基于投影的方法(Mallya, Davis, and Lazebnik 2018; Guo, Rush, and Kim 2021; Xu et al. 2021)提出根据数据为每个参数计算一个分数,并将分数投影到参数选择掩码的可行区域(一个 L0 球)上。然而,由于可行区域是非凸的,我们将展示这种投影受到投影不连续性问题的影响,这使得参数选择相当不稳定。为了解决这些问题,我们提出了一种新的二阶近似方法(SAM),用一个可解析求解的函数来近似 NP-hard 优化目标函数。然后,我们直接根据最优值选择参数,并相应地优化参数。我们进行了广泛的实验来验证我们的理论分析和我们提出的 SAM 模型。我们的贡献可以总结如下:1)我们提出了一个新的现有参数高效方法的分类方案,并用统一的视角将大多数这些方法概括为稀疏微调模型;2)我们对参数高效模型的稳定性和泛化进行了理论分析;3)我们提出了一个新的 SAM 模型来选择合适的参数进行优化;4)我们进行了广泛的实验来验证我们的理论分析和 SAM 模型。