论文笔记-SIGIR2024-DEALRec_data-efficient fine-tuning for llm-based recommend-CSDN博客

本文链接：https://blog.csdn.net/m0_46464344/article/details/143493000

DEALRec：基于LLM的推荐模型的数据高效微调

论文下载链接：Data-efficient Fine-tuning for LLM-based Recommendation
源码链接：DEALRec

摘要

在日益增长的推荐数据上微调大语言模型所耗费的高额成本限制了基于LLM的推荐模型的发展。实现高效微调旨在识别代表性样本，即选择核心集coreset。然而，现有的核心集选择方法通常依赖于次优启发式指标，或者需要对大规模推荐数据进行成本高昂的优化。

为了解决以上问题，本文提出了一种数据修剪方法DEALRec，结合了两个分数，即影响分数和努力分数。使用小型代理模型获取影响分数，估计删除样本对整体性能的影响。考虑到替代模型和LLMs之间的潜在差距，进一步提出了努力分数，以优先考虑针对LLMs的一些硬样本。

1.引言

之前的研究发现，通过对随机抽样的少样本数据进行微调，LLM可以快速适应推荐任务，从而显着减少训练时间和计算成本。尽管效率很高，但随机采样的数据可能缺乏足够的代表性，无法使法LLMs有效理解新项目和用户行为。

本文引入了数据修剪的任务，旨在识别适合于 LLMs 进行少样本微调的代表性样本，以提高基于 LLM 的推荐效率。与数据修剪任务相关的是核心集选择方法。

目前的核心集选择方法存在两个挑战：

1）启发式方法基于预定义的度量标准选择难度较大或多样化的样本，并不估计所选样本对risk的影响，可能导致次优核心集选择。

2）优化方法主要通过优化子集的选择来最小化risk，但是优化成本高，不适用于大规模推荐数据集。

两个主要目标：

1）高准确性，重点是选择可以导致低经验风险的样本；

2）高效率，强调数据修剪过程的低成本，即消除训练的LLMs对完整数据的依赖。

本文主要贡献：

1）引入了数据修剪任务，以识别适合于高效微调的影响样本。

2）提出了一种新颖的数据修剪方法DEALRec，旨在高效识别对基于LLM的推荐微调有影响的样本。

2.相关工作

2.1基于LLM的推荐

为了充分利用LLM的推荐潜力，一系列工作研究了针对推荐任务的各种微调策略。然而，微调LLM需要大量的计算资源和时间成本，阻碍了实际应用。因此，提高基于LLM的推荐模型的微调效率至关重要。

2.2核心集选择

核心集选择的目的是从完整数据中选择一个较小但具有代表性的子集，从而获得可比较的模型性能。以前的工作主要分为两类：1）启发式方法通常假设困难或多样化的样本对模型训练是有帮助的。2）基于优化的方法利用双层或离散优化技术来优化数据子集，以最小化经验风险。

2.3数据压缩

数据压缩是实现数据高效训练的另一个潜在解决方案，即合成一个小但信息丰富的数据集。以往的研究主要针对连续数据，这对于基于LLM的推荐并不适用。最近提出的TF-DCon是针对基于内容的推荐的，本文在实验中对其进行了比较。

3.DEALRec

为了实现高效的基于LLM的推荐，本文提出了一种新颖的数据修剪方法DEALRec，该方法包含两个关键组成部分：影响分数，用于估计对经验风险的影响；努力分数，作为正则化项以缩小代理模型与LLMs之间的差距。
在这里插入图片描述

3.1影响分数

为了实现良好的模型性能，关键在于评估移除训练样本对经验风险（即整体性能）的影响。然而，简单地通过逐一移除每个样本来评估影响是不可行的。

因此，本文提出了一种高效的影响评估近似方法，通过链式法则和二阶优化技术扩展对参数变化的影响，并进一步利用对称性质来加速影响分数的计算。

3.1.1对参数变化的影响

通过利用影响函数的经典结果来估计移除样本对模型参数变化的影响：
在这里插入图片描述
基于上述公式，评估样本对模型训练的影响可以通过计算样本影响在参数变化上的L2范数来实现。然而，较大的参数变化并不一定会导致性能的提升。此外，对于所有训练样本计算这一影响的过程可能会非常耗时，并且在推荐数据中不可行。

为了缓解这些问题，本文提出了一种有效的近似方法来衡量删除样本对经验风险的影响。

3.1.2对经验风险的影响

移除样本对经验风险（即影响分数）的影响可以通过以下公式获得：
在这里插入图片描述
计算复杂度为 $O(n m^2 + m^3)$ ，其中 $n$ 是样本数量， $m$ 是参数数量。这意味着在样本量大和参数多的情况下，计算开销会很高。

3.1.3影响分数的有效评估

为了高效计算影响分数，本文采用基于随机化的 Hessian-Vector算法。尽管基于随机化的HVP可以减轻估计的计算负担，但由于对每个 $s \in D$ 进行独立的 $n$ 次估计，计算每个样本的影响分数仍然是昂贵的。

为了进一步提高获取所有样本影响分数的效率，利用对称性质将方程(9)重写为：
在这里插入图片描述

3.2差距正则化

如方程(11)所示，评估样本的影响分数需要在所有训练样本上经过良好训练的优化参数。在现实场景中，新的大规模数据不断涌入。在这种背景下，本文建议使用代理模型来替代LLM，并引入努力分数作为差距正则化，以补充LLM与代理模型之间的学习能力差距。

3.2.1努力分数

影响LLM的样本可能与影响替代模型的样本不同。为了补偿这种差距，引入努力分数，旨在捕捉对LLM特别重要的样本。

具体而言，定义样本（即用户序列）的努力分数为：
在这里插入图片描述
这个分数衡量了LLM为拟合特定用户序列所付出的努力，分数越大表示样本对LLM来说越难以学习。进一步而言，方程(12)测量的是模型参数的变化，这可以解释为LLM当前参数中编码的知识与最新项目知识或用户行为之间的差异。因此，努力分数能够强调对LLM特别重要的样本，补充替代模型的不同学习能力。

3.2.2总分

在这里插入图片描述

DEALRec在识别影响样本时考虑了两个关键因素：1）影响分数专注于从完整数据集中选择具有代表性的样本，以捕捉用于降低经验风险的协同过滤信息；2）努力分数突出对LLM学习重要的样本。

3.3少样本微调

基于通过方程(13)获得的最终影响分数，可以选择一个数据子集用于LLM的少样本微调。

3.3.1少量样本数据覆盖

一种简单的方法是贪婪地选择数据，即根据总体分数对样本进行排序，然后选择前r百分比的训练数据。然而，贪婪地选择得分较高的样本可能导致非常相似的样本，从而导致数据覆盖率较低。

3.3.2覆盖率增强的样本选择

为了解决上述问题，本文根据分层抽样的理念选择用户。核心思想是保持在训练分布的不同区域中样本的预算，以改善数据覆盖，确保经验风险的高概率界限。具体而言，首先根据样本的总体分数将其划分为K组。然后，从样本最少的组中迭代抽取 $n_s$ 个用户序列。

3.3.3实现

首先使用替代模型在原始训练样本上进行训练，并通过方程(11)计算所有样本的影响分数，其中 $L(\cdot)$ 可以是来自替代模型的任何形式的损失函数，例如BPR。然后，通过方程(12)获取LLM的努力分数，其中 $\phi$ 可以是任何基于LLM的推荐模型的可学习参数。最后，应用分层抽样来选择样本，用于LLM的少量微调。

DEALRec的详细过程在算法2中进行了说明。
在这里插入图片描述