论文地址:https://arxiv.org/pdf/2307.02046.pdf
0、概述
随着电子商务和网络应用的繁荣发展,推荐系统(RecSys)已经成为我们日常生活中的重要组成部分,它们提供个性化建议,迎合用户偏好。虽然深度神经网络(DNNs)通过建模用户-项目交互并整合它们的文本信息,在增强推荐系统方面取得了显著进展,但这些基于DNN的方法仍然存在一些限制,例如在有效理解用户兴趣和捕获文本信息、泛化到各种已见/未见推荐场景以及对其预测进行推理等方面的困难。与此同时,大型语言模型(LLMs)如ChatGPT和GPT-4的出现,因其在语言理解和生成的基本职责以及令人印象深刻的泛化和推理能力,已经彻底改变了自然语言处理(NLP)和人工智能(AI)领域。因此,近期研究已经尝试利用LLMs的力量来增强推荐系统。鉴于这一研究方向在推荐系统中的迅速演变,迫切需要一个系统的概述,总结现有的LLM增强推荐系统,以便为相关领域的研究人员和从业者提供深入的理解。因此,在这一份调查中,我们从多个方面对LLM增强推荐系统进行了全面回顾,包括预训练、微调和提示。更具体地说,我们首先介绍了利用LLMs(作为特征编码器)来学习用户和项目表示的代表性方法。然后,我们回顾了LLMs从三个范式,即预训练、微调和提示,来增强推荐系统的最近先进技术。最后,我们全面讨论了这一新兴领域的有前景的未来方向。
1、简介
推荐系统的基本思想是利用用户与物品之间的交互及其关联的附加信息,特别是文本信息(例如物品标题或描述、用户个人资料和物品的用户评价),来预测用户与物品之间的匹配分数(即用户是否喜欢该物品的概率)。更具体地说,用户与物品之间的协同行为被利用来设计各种推荐模型,进一步用于学习用户和物品的表示。此外,关于用户和物品的文本附加信息包含丰富的知识,可以帮助计算匹配分数,为推进推荐系统提供了巨大的机会。由于深度神经网络在各个领域的表示学习能力,它已被广泛应用于推荐系统。深度神经网络(DNNs)通过不同的架构展示出在建模用户-物品交互方面的独特能力。例如,作为处理序列数据的特别有效工具,循环神经网络(RNN)已被采用来捕捉用户交互顺序中的高阶依赖关系。将用户的在线行为(例如点击、购买、社交)视为图结构数据,图神经网络(GNN)已经成为一种前沿的表示学习技术,用于学习用户和物品的表示。
尽管取得了前述的成功,大多数现有的推荐系统仍然面临一些固有的局限性。
首先,由于模型规模和数据规模的限制,先前基于深度神经网络的模型(例如CNN和LSTM)和预训练语言模型(例如BERT)对于推荐系统而言不能充分捕捉有关用户和物品的文本知识,表明它们的自然语言理解能力较差,这导致在各种推荐场景中的预测性能不能达到最优。
图1:在电影推荐场景中,LLMs用于各种推荐任务的示例。LLMs可以利用文本数据(甚至是多模态数据,如图像)用于推荐任务。
其次,大多数现有的推荐系统方法都是针对特定任务设计的,并且对于没见过的推荐任务缺乏充分的泛化能力。例如,一个推荐算法在用户-物品评分矩阵上进行训练,可以很好地预测电影的评分,但是对于该算法来说,在给出某些解释的情况下进行top-k电影推荐是具有挑战性的。这是因为这些推荐体系结构的设计高度依赖于特定任务的数据和领域知识。
接着,大多数现有的基于DNN的推荐方法可以在需要简单决策的推荐任务上到达期望的性能(例如评分预测和top-k推荐)。然而,它们在支持涉及多个推理步骤的复杂决策方面面临困难。例如,在旅行规划推荐中,多步推理至关重要。推荐系统首先应基于目的地考虑热门旅游景点,然后根据旅游景点安排适当的行程,并最后根据具体用户偏好(如旅行时间和费用)推荐旅行计划。
LLMs已经证明了它们在语言理解和生成的基本职责上具有前所未有的强大能力。这些改进使LLMs能够更好地理解人类意图并生成更贴近人类的语言范式。此外,最近的研究表明,LLMs具有令人印象深刻的泛化和推理能力,使LLMs更好地泛化到各种没见过的任务和领域。具体而言,LLMs无需对每个特定任务进行大量微调,只需提供适当的指示或几个任务演示,即可将其学习的知识和推理技能应用于适应新任务。使用前沿技术,如上下文学习,可以进一步增强LLMs在特定下游任务上的泛化性能。此外,借助思维链(COT)等提示策略的支持,LLMs可以在复杂的决策过程中生成具有逐步推理的输出。因此,鉴于它们的强大能力,LLMs展示了改变推荐系统的巨大潜力。
2、介绍
2.1 大语言模型(LLMs)
LLMs是通过在大量的文本数据上进行训练并具有数十亿个参数,以理解自然语言的模式和结构。
有几种经典的预训练语言模型可供选择,如BERT(基于Transformers的双向编码器表示),GPT(生成式预训练Transformer)和T5(文本到文本转换Transformer)。通常,这些语言模型分为三大类别:仅编码器模型,仅解码器模型和编码解码器模型。
BERT、GPT和T5是基于Transformer架构的不同模型。具体而言,BERT是一个仅有编码器的模型,它使用双向注意力来处理标记序列,考虑每个token的左右上下文。它使用掩蔽语言建模和下一句预测等任务进行预训练,并能够在大量文本数据中捕捉语言和含义的细微差别。这个过程将文本转化为向量空间,实现了细致入微的、有上下文意识的分析。另一方面,基于Transformer解码器架构的GPT使用自注意机制进行从左到右的单向词序列处理。GPT主要用于语言生成任务,将嵌入向量映射回文本空间,生成与上下文相关的响应。最后,T5是一个编码解码器模型,通过将每个自然语言处理问题转化为文本生成问题,可以处理任何文本到文本的任务。
由于模型规模的不断增大,通过展示前所未有的理解和生成类似于人类文本知识的能力,语言模型彻底改变了自然语言处理领域。这些模型(如GPT-3、LaMDA、PaLM和Vicuna等模型)通常基于Transformer架构,在大量文本数据上进行训练。这个过程使它们能够捕捉复杂的语言模式和细微差别。
最近,LLMs展示了令人惊讶的上下文知识学习(ICL)能力,ICL是它们设计和功能的核心概念。ICL指的是模型根据输入上下文理解并提供答案的能力,而不仅仅依靠通过预训练获得的内部知识。一些研究工作探索了在各种任务中利用ICL的方法,如SG-ICL和EPR。这些工作表明,ICL允许LLMs根据输入上下文来调整其回答,而不是生成通用的回答。
另一种可以增强LLMs推理能力的技术是思维链(CoT)。该方法通过在提示中提供多个示例来描述思维链,引导模型的推理过程。CoT的一个扩展是自一致性的概念,它通过在答案上实施多数表决机制来操作。目前的研究继续深入探索在LLMs中应用CoT的方法,如STaR、THOR和Tab-CoT。通过提供一组提示来引导模型的思维过程,CoT使模型能够更有效地推理并提供更准确的回答。有了上述强大的能力,LLMs在化学、教育和金融等各个领域展现出了巨大的潜力。这些模型,如ChatGPT,也在提升RecSys的功能和用户体验方面发挥了重要作用。
LLMs在RecSys中的一个关键应用是预测用户对物品