论文笔记-SIGIR2024-Data-efficient Fine-tuning for LLM-based Recommendation
DEALRec:基于LLM的推荐模型的数据高效微调
论文下载链接:Data-efficient Fine-tuning for LLM-based Recommendation
源码链接:DEALRec
摘要
在日益增长的推荐数据上微调大语言模型所耗费的高额成本限制了基于LLM的推荐模型的发展。实现高效微调旨在识别代表性样本,即选择核心集coreset。然而,现有的核心集选择方法通常依赖于次优启发式指标,或者需要对大规模推荐数据进行成本高昂的优化。
为了解决以上问题,本文提出了一种数据修剪方法DEALRec,结合了两个分数,即影响分数和努力分数。使用小型代理模型获取影响分数,估计删除样本对整体性能的影响。考虑到替代模型和LLMs之间的潜在差距,进一步提出了努力分数,以优先考虑针对LLMs的一些硬样本。
1.引言
之前的研究发现,通过对随机抽样的少样本数据进行微调,LLM可以快速适应推荐任务,从而显着减少训练时间和计算成本。尽管效率很高,但随机采样的数据可能缺乏足够的代表性,无法使法LLMs有效理解新项目和用户行为。
本文引入了数据修剪的任务,旨在识别适合于 LLMs 进行少样本微调的代表性样本,以提高基于 LLM 的推荐效率。与数据修剪任务相关的是核心集选择方法。
目前的核心集选择方法存在两个挑战:
1)启发式方法基于预定义的度量标准选择难度较大或多样化的样本,并不估计所选样本对risk的影响,可能导致次优核心集选择。
2)优化方法主要通过优化子集的选择来最小化risk,但是优化成本高,不适用于大规模推荐数据集。
两个主要目标:
1)高准确性,重点是选择可以导致低经验风险的样本;
2)高效率,强调数据修剪过程的低成本,即消除训练的LLMs对完整数据的依赖。
本文主要贡献:
1)引入了数据修剪任务,以识别适合于高效微调的影响样本。
2)提出了一种新颖的数据修剪方法DEALRec,旨在高效识别对基于LLM的推荐微调有影响的样本。
2.相关工作
2.1基于LLM的推荐
为了充分利用LLM的推荐潜力,一系列工作研究了针对推荐任务的各种微调策略。然而,微调LLM需要大量的计算资源和时间成本,阻碍了实际应用。因此,提高基于LLM的推荐模型的微调效率至关重要。
2.2核心集选择
核心集选择的目的是从完整数据中选择一个较小但具有代表性的子集,从而获得可比较的模型性能。以前的工作主要分为两类:1)启发式方法通常假设困难或多样化的样本对模型训练是有帮助的。2)基于优化的方法利用双层或离散优化技术来优化数据子集,以最小化经验风险。
2.3数据压缩
数据压缩是实现数据高效训练的另一个潜在解决方案,即合成一个小但信息丰富的数据集。以往的研究主要针对连续数据,这对于基于LLM的推荐并不适用。最近提出的TF-DCon是针对基于内容的推荐的,本文在实验中对其进行了比较。
3.DEALRec
为了实现高效的基于LLM的推荐,本文提出了一种新颖的数据修剪方法DEALRec,该方法包含两个关键组成部分:影响分数,用于估计对经验风险的影响;努力分数,作为正则化项以缩小代理模型与LLMs之间的差距。
3.1影响分数
为了实现良好的模型性能,关键在于评估移除训练样本对经验风险(即整体性能)的影响。然而,简单地通过逐一移除每个样本来评估影响是不可行的。
因此,本文提出了一种高效的影响评估近似方法,通过链式法则和二阶优化技术扩展对参数变化的影响,并进一步利用对称性质来加速影响分数的计算。
3.1.1对参数变化的影响
通过利用影响函数的经典结果来估计移除样本对模型参数变化的影响:
基于上述公式,评估样本对模型训练的影响可以通过计算样本影响在参数变化上的L2范数来实现。然而,较大的参数变化并不一定会导致性能的提升。此外,对于所有训练样本计算这一影响的过程可能会非常耗时,并且在推荐数据中不可行。
为了缓解这些问题,本文提出了一种有效的近似方法来衡量删除样本对经验风险的影响。
3.1.2对经验风险的影响
移除样本对经验风险(即影响分数)的影响可以通过以下公式获得:
计算复杂度为
O
(
n
m
2
+
m
3
)
O(n m^2 + m^3)
O(nm2+m3),其中
n
n
n是样本数量,
m
m
m是参数数量。这意味着在样本量大和参数多的情况下,计算开销会很高。
3.1.3影响分数的有效评估
为了高效计算影响分数,本文采用基于随机化的 Hessian-Vector算法。尽管基于随机化的HVP可以减轻估计的计算负担,但由于对每个 s ∈ D s∈D s∈D进行独立的 n n n次估计,计算每个样本的影响分数仍然是昂贵的。
为了进一步提高获取所有样本影响分数的效率,利用对称性质将方程(9)重写为:
3.2差距正则化
如方程(11)所示,评估样本的影响分数需要在所有训练样本上经过良好训练的优化参数。在现实场景中,新的大规模数据不断涌入。在这种背景下,本文建议使用代理模型来替代LLM,并引入努力分数作为差距正则化,以补充LLM与代理模型之间的学习能力差距。
3.2.1努力分数
影响LLM的样本可能与影响替代模型的样本不同。为了补偿这种差距,引入努力分数,旨在捕捉对LLM特别重要的样本。
具体而言,定义样本(即用户序列)的努力分数为:
这个分数衡量了LLM为拟合特定用户序列所付出的努力,分数越大表示样本对LLM来说越难以学习。进一步而言,方程(12)测量的是模型参数的变化,这可以解释为LLM当前参数中编码的知识与最新项目知识或用户行为之间的差异。因此,努力分数能够强调对LLM特别重要的样本,补充替代模型的不同学习能力。
3.2.2总分
DEALRec在识别影响样本时考虑了两个关键因素:1)影响分数专注于从完整数据集中选择具有代表性的样本,以捕捉用于降低经验风险的协同过滤信息;2)努力分数突出对LLM学习重要的样本。
3.3少样本微调
基于通过方程(13)获得的最终影响分数,可以选择一个数据子集用于LLM的少样本微调。
3.3.1少量样本数据覆盖
一种简单的方法是贪婪地选择数据,即根据总体分数对样本进行排序,然后选择前r百分比的训练数据。然而,贪婪地选择得分较高的样本可能导致非常相似的样本,从而导致数据覆盖率较低。
3.3.2覆盖率增强的样本选择
为了解决上述问题,本文根据分层抽样的理念选择用户。核心思想是保持在训练分布的不同区域中样本的预算,以改善数据覆盖,确保经验风险的高概率界限。具体而言,首先根据样本的总体分数将其划分为K组。然后,从样本最少的组中迭代抽取 n s n_s ns 个用户序列。
3.3.3实现
首先使用替代模型在原始训练样本上进行训练,并通过方程(11)计算所有样本的影响分数,其中 L ( ⋅ ) L(\cdot) L(⋅) 可以是来自替代模型的任何形式的损失函数,例如BPR。然后,通过方程(12)获取LLM的努力分数,其中 ϕ \phi ϕ 可以是任何基于LLM的推荐模型的可学习参数。最后,应用分层抽样来选择样本,用于LLM的少量微调。
DEALRec的详细过程在算法2中进行了说明。
4.实验
4.1实验设置
-
数据集:Games、MicroLens-50K、Book
-
基线:Random、GraNd、EL2N、CCS、TF-DCon、RecRanker
-
评估指标:Recall@K、NDCG@K
-
推荐系统架构:BIGRec、TIGER
注:BIGRec是一种利用大型语言模型(如 LLaMA-7B)进行推荐的系统。TIGER 是另一种基于LLM的推荐系统,但使用的是较小的或不同类型的模型架构(如基于变换器的架构)。
4.2性能实验
结论:
-
所有使用BIGRec的方法比TIGER的方法表现更好。
-
在所有核心集选择基线中,基于难度的(GraNd、EL2N)方法通常比基于多样性的方法(TF-DCon、RecRanker)表现更好。
-
随机采样方法在某些情况下优于其他核心集选择方法。
-
DEALRec在三个数据集上的性能显著优于所有核心集选择方法。
本文进一步将DEALRec与BIGREc在完整训练下进行比较:
结论:
-
与完全数据训练的模型相比,DEALRec实现了更高的性能,表明DEALRec在高精度方面的有效性。
-
DEALRec显著降低了LLM微调的时间成本(平均微调成本减少 97.11%)。
4.3消融实验
结论:
-
去除影响分数或努力分数中的任意一个都会导致性能下降。
-
Greedy性能较差,说明简单地选择总体分数较高的样本可能会削弱对不同用户行为和项目知识的学习。
4.4超参数r
结论:
-
随着所选样本数量从0.2%增加到1%,推荐准确率迅速提高,在1%时超过了完全训练。
-
样本数量从2%增加到4%,额外样本带来的好处会逐渐减弱,证明推荐数据之间的差距主要存在于代表性用户行为的一小部分。
-
尽管微调LLM的时间成本因样本的增加而逐渐增加,但与完整训练相比,成本降低仍达到94%以上。
5.总结
本文提出了基于LLM的高效推荐的数据修剪任务,旨在识别适合LLM少量微调的代表性样本。同时,提出了一种新颖的数据修剪方法DEALRec,使用两个分数来实现。
1)影响分数被公式化为估计删除样本对经验风险的影响,该分数是从影响函数扩展而来,并通过对称性质进行加速。
2)引入一个小型的代理模型来高效计算影响分数,并提出努力分数以弥补替代模型与 LLM 之间的差距。
这项工作为LLM微调提出了数据修剪任务,为高效的大模型推荐开辟了新的研究方向,并为未来的研究留出了许多有前景的方向:
1)将DEALRec应用于更多基于LLM的推荐模型和跨域数据集,以在有限资源下改善微调性能。
2)由于LLM的上下文窗口长度有限,选择用户交互序列中的信息丰富的互动项目进行LLM微调也是一个有前景的方向。
3)提高基于LLM的推荐模型的推理效率也是其在实际应用中至关重要的问题。