LLM洗数据：数据或许比算法更重要？大模型剪枝中的校准数据_llm洗数据:数据或许比算法更重要?-CSDN博客

本文链接：https://blog.csdn.net/m0_64752471/article/details/143249241

近年来，大语言模型（Large Language Model, LLM）日益强大的性能吸引了各行各业的关注，并逐步在各种领域得到了广泛应用。为了节省大模型部署的成本，降低大模型服务延迟，越来越多的研究聚焦于大语言模型轻量化，试图平衡大语言模型的性能与效率。

剪枝是实现模型轻量化的重要技术之一，它通过删去模型中重要性较低的参数减少模型的参数量。近期，学术界提出了多种剪枝技术，这些方法利用少量校准数据（一般是128条2048个token的文本）无需迭代式的训练就能度量并识别出重要性较低的参数，一般被称为训练后剪枝。训练后剪枝的目标如下：其中是第层的参数, 是第层的输入表示, 与校准数据相关, 是第层的剪枝后的参数。训练后剪枝包括两个主要要素：校准数据与剪枝算法。校准数据影响了剪枝算法的目标函数, 剪枝算法则是寻找目标函数的最优解。目前剪枝算法的改进使得模型剪枝不断逼近最优解，但是如果我们的目标函数受到校准数据的影响本就存在偏差呢?

论文：Beware of Calibration Data for Pruning Large Language Models
链接：https://arxiv.org/abs/2410.17711

发现

我们在DCLM-7B模型上对比了剪枝算法与校准数据分别对剪枝性能的影响。图1（a）展示了5种近期最有代表性和竞争力的剪枝算法，我们遵循相关论文中的常规设置，从C4数据中采样128条序列长度为2048的校准数据；图1（b）展示了SparseGPT方法使用5种不同校准数据的性能差异。通过这个实验我们得到两个重要发现：