本文是LLM系列文章,针对《DPPA: Pruning Method for Large Language Model to Model Merging》的翻译。
摘要
模型合并是将来自多个领域的微调模型组合在一起,目的是提高模型在各个领域的熟练度。主要关注的是参数冲突的解决。大量现有研究在合并阶段解决了这一问题,最新研究集中在整个修剪阶段解决这一问题。当应用于简单的微调模型时,DARE方法显示出有希望的结果。然而,当用于复杂的微调模型时,这种方法的有效性往往会减弱,这些模型显示出相对于基线模型的显著参数偏差。在本文中,我们介绍了一种称为动态修剪分区放大(DPPA)的双阶段方法,旨在解决合并复杂微调模型的挑战。首先,我们介绍了动态修剪(DP),这是一种基于幅度修剪的改进方法,旨在提高较高修剪率下的性能。随后,我们提出了动态分区放大(DPA),这是一种重新缩放策略,旨在动态放大与其显著性水平相关的参数分区。实验结果表明,我们的方法只保留了20%的领域特定参数,但其性能与其他方法相当,这些方法保留了高达90%的参数。此外,我们的方法在修剪后表现出出色的性能,使模型合并的性能显著提高了近20%。我们在Github上制作代码。