【文献阅读三】A Survey on Large Language Models for Recommendation

文献来源:A Survey on Large Language Models for Recommendation
本文只是对原文章做的一个初步阅读与理解,如有错误的地方,还请多多指点。想了解更多请原读原文。

本文是关于推荐系统领域的一篇综述的阅读。为了提供一个关于LLM-based的推荐模型的全面了解,该综述将现存的模型分为两大范式:基于判别式的推荐模型DLLM4Rec和基于生成式的推荐模型GLLM4Rec。本综述重点讨论了GLLM4Rec

迄今为止,已有少量研究对该领域的相关文献进行了综述。然而,这些主要集中在预训练语言模型中训练技术和策略的迁移,而不是探索基于LLM的方法。此外,他们缺乏对推荐领域中生成式大语言模型的最新进展和系统介绍的全面概述。

一、模型范式和分类

Figure 1

  1. LLM Embeddings + RS:该范式将语言模型视为一个特征提取器,将物品和用户的特征输入LLMs并输出相应的嵌入。传统的RS模型可以利用知识感知的嵌入来完成各种推荐任务。
  2. LLM Tokens + RS: 与前一种方法类似,该方法根据输入项目和用户的特征生成令牌。生成的令牌通过语义挖掘捕获潜在的偏好,可以集成到推荐系统的决策过程中。
  3. LLM + RS:与第一种和第二种不同,该范式旨在将预训练的LLM直接转化为强大的推荐系统。输入序列通常由概要描述、行为提示和任务指令组成。期望输出序列能够给出合理的推荐结果。

二、LLM-based推荐系统的分类

Figure 2
总共分成两类,分别是DLLM4Rec和GLLM4Rec。而每一类又可以细分多个类别,具体参考上图。下图是对五种训练方法的详细解释。
Figure 3

三、DLLM4Rec

  1. fine-tuning: 微调的思想是采取一种语言模型,该模型已经从大规模文本数据中学习到了丰富的语言表示,并通过在任务特定的数据上进一步训练来适应特定的任务或领域。微调的过程包括用学习到的参数初始化预训练的语言模型,然后在特定于推荐的数据集上进行训练。该数据集通常包括用户-项目交互、项目的文本描述、用户画像以及其他相关的上下文信息。在微调过程中,模型的参数根据任务特定的数据进行更新,使其能够适应和专注于推荐任务。在预训练和微调阶段,学习目标可以不同。代表性的模型:U-BERTUserBERTBECR等等。

  2. Prompt Tuning: 与通过设计特定的目标函数使LLM适应不同的下游推荐任务不同,提示微调试图通过硬/软提示和标签词在言语将推荐的调整对象与预训练的损失对齐。代表性的模型如Prompt4NR等。

四、GLLM4Rec

与大多数基于判别模型的方法将LLMs学习到的表示对齐到推荐域不同,大多数基于生成模型的工作将推荐任务转换为自然语言任务,然后应用语境学习、提示调优和指令调优等技术对LLMs进行调整以直接生成推荐结果。

Non-tuning范式

Non-tuning范式分为两类,PromptingIn-context Learning

  1. Prompting: 这类工作旨在设计更合适的指导语和提示语,帮助LLM更好地理解和解决推荐任务。这些策略已经被证明与基于项目的协同过滤方法相比具有显著的竞争力,特别是在接近冷启动的场景中。

  2. In-context Learning: 上下文学习是GPT-3和其他LLMs用来快速适应新任务和新信息的一种技术。通过少量的示范性输入-标签对,他们可以预测一个看不见的输入的标签,而不需要额外的参数更新。然而,与提示相比,只有少数研究探讨了语境语言模型学习( Learning of Language Models,LLMs )在推荐任务中的应用。仍然存在许多开放性的问题,包括示范实例的选择以及示范实例的数量对推荐性能的影响。

Tuning范式

LLMs有很强的零样本和少样本学习的能力,他们的表现比随机猜测要好。但是和传统的在具体数据集上训练出来的模型的性能还查一些距离。所以就有了fine-tuning、prompt tuning、和instruction tuning这三类。

  1. fine-tuning: 在微调范式中,判别式和生成式大语言模型的使用方法明显类似。LLMs主要作为编码器来提取用户或项目的表示,LLMs的参数随后在下游推荐任务的特定损失函数上进行微调。然而,一个非常大的LM可能不会导致用户和项目的通用表示,简单的基于ID的协同过滤在温暖项目推荐设置中仍然是一种极具竞争力的方法。

  2. prompt tuning: prompt tuning主要集中在特定的任务上,例如评分预测。在该范式中,LLMs通常以用户/物品信息作为输入,输出用户对物品的偏好(例如,喜欢或不喜欢,评分),或者输出用户可能感兴趣的物品。比如GenRecPBNR

  3. Instruction Tuning: 在该范式中,LLMs针对不同类型指令的多个任务进行微调。通过这种方式,LLMs可以更好地与人类意图对齐,并实现更好的零样本能力。如T5模型和M6模型。

五、实验发现

模型偏差

  1. 位置偏差:输入序列的顺序回对生成的答案造成影响。优先考虑排在前面的;
  2. 流行偏差:排序结果会受到候选的欢迎程度的影响。预训练语料库中常被提及与讨论的项目排名较高;
  3. 公平偏差:候选结果会受到训练数据中涉及到的个体和属性的影响。

推荐prompt设计

  1. 用户/物品表示:在实际应用中,推荐系统通常利用大量离散和连续的特征来表示用户和项目。然而,现有的基于LLM的工作大多只用名称表示物品,用物品名称列表表示用户,不足以对用户和物品进行准确建模。此外,将用户的异构行为序列(例如在电子商务领域的点击、添加购物车、购买等)翻译成自然语言对于偏好建模至关重要。ID - like特征在传统的推荐模型中已被证明是有效的,但将其融入提示以提高个性化推荐性能也是具有挑战性的。

  2. 文本长度的限制:LLMs的上下文长度限制会限制用户行为序列的长度和候选项的数量,导致次优性能。现存的工作提出了滑动窗口策略来缓解这个问题。

评价问题

Q1:在实际运用中,LLM输出的结果会和预期格式不同。由 于训练数据和自回归训练模式,LLM在list-wise推荐任务 上变现欠佳,并且无法通过微调解决。PRP通过pair-wise 对序列两两组合来替换list-wise,方法可行,但是非常耗 时。

Q2:如果LLM执行的是标准的推荐任务,比如排名、评 级预测,只需要常规的评估指标。但如果LLM是从历史 数据中生成候选进行推荐,则无法评估LLM的生成推荐 能力。

Q3:数据集规模小、老旧,可能与LLM训练数据重合,会对推荐结果造成影响。

六、总结

本综述的贡献如下:
在这里插入图片描述
本篇综述主要将现存的基于大模型的推荐模型分为了两大类:DLLM4RecGLLM4Rec。然后重点介绍了后者。详细介绍建议参见原文。

最后附上文献中提到的模型分类表及数据集。
Table 1_1
Table 1_2
Table 2

本综述给了我一个关于LLM-based推荐系统的宏观介绍,让我初步了解推荐系统领域,同时也可以给我未来的研究方向进行指导,即GLLM4Rec。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值