LLM->Rec综述:Foundation Models for Recommender Systems: A Survey and New Perspectives


推荐系统的基础模型:综述与新视角
日期:2024年2月
网址:https://arxiv.org/pdf/2402.11143

论文综述系统性地探讨了基础模型(FMs)在推荐系统(RecSys)中的应用现状、分类框架、挑战与未来方向。

论文重点和创新点

论文重点

  1. 系统性综述FM4RecSys
    • 首次全面梳理基础模型(FMs)在推荐系统中的应用,涵盖数据表征、模型类型、下游任务等维度,提出统一的分类框架(图2)。
    • 超越以往仅关注大语言模型(LLMs)的综述,扩展至多模态基础模型(如CLIP、ViT)和个性化代理(Agent AI)。

  2. 四大核心分类
    数据表征:对比ID-based(如TransRec)、多模态(如VIP5)和混合表征(如CLLM4Rec)的优劣,强调语义与协同信号的平衡。
    模型类型
    语言基础模型:分预训练(如M6-Rec)、微调(如InstructRec)、提示工程(如ChatGPT零样本推荐)。
    多模态模型:如KP4SR利用知识图谱提示解决语义鸿沟。
    个性化代理:模拟用户行为(如RecAgent)或作为推荐系统(如Self-Inspiring算法)。
    下游任务:覆盖Top-K推荐、上下文感知推荐(如DRDT)、交互式推荐(如对话式CRS)、跨域推荐(如HAMUR)、可解释性与公平性(如UP5)。

  3. 关键挑战与解决方案
    长序列处理:RoPE技术扩展上下文窗口,适配用户行为序列建模。
    可解释性:结合知识图谱(如Logic-Scaffolding)和Chain-of-Thought技术生成逻辑化解释。
    效率问题:参数高效微调(LoRA)、嵌入缓存、模型压缩(AWQ量化)降低计算成本。

创新点

  1. 统一框架与新型分类法
    • 提出“数据-模型-任务”三维分类体系,首次将Agent AI和多模态FM纳入推荐系统研究范畴。

  2. 前沿问题深度剖析
    RAG与推荐结合:探讨检索增强生成技术如何缓解FM的幻觉问题,动态更新用户偏好(如RELLA)。
    时序外推:提出将用户偏好视为时间序列,利用LLMTIME2实现零样本偏好预测。
    多模态Agent AI:构想代理通过感知环境(如医疗场景)生成实时推荐,推动仿真与A/B测试革新。

  3. 批判性洞见
    • 揭示FM的双刃剑效应:
    安全性:提示注入攻击风险,需人类对齐(如CValues数据集)。
    隐私:联邦学习与机器遗忘(如推荐反学习)成为未来方向。
    Benchmark缺陷:指出现有评估局限于单一数据集(如Amazon Beauty),呼吁构建多任务、多模态基准。

  4. 实用导向优化
    • 系统分析API成本(如GPT-4令牌开销)、训练/推理效率,给出具体方案(表1),如动态RAG减少上下文长度。
    在这里插入图片描述

总结

该论文通过体系化的文献梳理和前瞻性思考,不仅填补了FM4RecSys领域的综述空白,更通过跨模态、Agent AI、RAG等交叉创新,为下一代推荐系统提供了理论基石与实践路径。其核心价值在于将分散的研究脉络整合为有机框架,并尖锐指出技术落地中的隐蔽挑战(如隐私、成本),推动领域从“模型性能”向“可信部署”演进。


摘要

最近,基础模型 (FM) 凭借其广泛的知识库和复杂的架构,在推荐系统 (RS) 领域提供了独特的机会。在本文中,我们试图彻底研究基于 FM 的推荐系统 (FM4RecSys)。我们首先回顾一下 FM4RecSys 的研究背景。然后,我们提供了现有 FM4RecSys 研究工作的系统分类法,可以分为四个不同的部分,包括数据特征、表示学习、模型类型和下游任务。在每个部分中,我们回顾了最近的主要研究进展,概述了代表性模型并讨论了它们的特点。此外,我们详细阐述了 FM4RecSys 的开放问题和机遇,旨在阐明该领域未来的研究方向。总之,我们回顾了我们的发现并讨论了该领域的新兴趋势。

1 引言

推荐系统(Recommender Systems, RSs)通过个性化定制内容和体验来满足用户偏好,在商业提升和决策过程中发挥着日益重要的作用[Ricci et al., 2015; Zhang et al., 2019]。与此同时,基础模型(Foundation Models, FMs)在自然语言处理、计算机视觉和多模态任务等领域取得了显著进展。近年来,FMs 正在重塑推荐系统的架构,提升其性能,并为推荐交互提供新的方式。基于基础模型的推荐系统凭借更强的泛化能力,能够更好地利用复杂的用户-物品信息,并处理更多样化的推荐任务[Geng et al., 2022]。

具体而言,基于基础模型的推荐系统(FM4RecSys) 是指利用预训练知识和推荐数据集,捕捉用户偏好、物品特征及上下文变量的丰富表示,以提高推荐任务的个性化和预测准确性。接下来,我们将探讨现有研究的动机,以深入理解 FMs 在推荐系统中的实际应用和影响。

1.1 研究动机

我们列举了推动 FM4RecSys 研究发展的主要动机:

1. 增强泛化能力
基础模型通过大规模数据学习复杂模式,能够更好地适应未见过的数据[Bommasani et al., 2021]。在推荐系统中,这意味着 FMs 可以更准确地预测用户偏好和行为,尤其是在数据稀疏或面对新物品(如零样本/少样本推荐场景[Gao et al., 2023a; Ding et al., 2021; Hou et al., 2023b])时,通过有限信息推断用户偏好或物品特征,从而提升冷启动推荐效果。

2. 提升交互体验
FMs 为推荐系统引入了变革性的交互范式。例如,传统对话推荐系统(CRSs)依赖预设的对话模板[Gao et al., 2021; Lei et al., 2020],限制了交互的灵活性和广度。而 FMs 支持动态、非结构化的自然语言对话,用户可以通过更直观的方式表达需求、提问或获取个性化推荐,显著提升了交互的自然性和参与感。

3. 改进解释与推理能力
传统推荐系统的解释通常基于简单数据(如用户评论或共现行为[Li et al., 2020]),缺乏深度逻辑。FMs 能够结合常识知识和用户上下文生成连贯的解释,例如通过分析用户历史行为、偏好和物品特征,提供更具说服力的推荐理由[Sun et al., 2023]。这种能力在医疗健康等关键领域尤为重要,可支持更可信的决策(如诊疗建议)[Wang et al., 2023d]。

1.2 与现有 LLM 推荐综述的差异

尽管已有研究探讨大语言模型(LLMs)与推荐系统的结合(如 Liu et al.[2023c] 分析训练策略、Wu et al.[2023] 从判别/生成视角总结 LLM4Rec),本文的独特贡献在于:
系统性框架:如图 1 所示,我们构建了涵盖数据特征、表示学习、模型类型和下游任务的完整分类体系。
更广的模型覆盖:不仅关注 LLMs,还包括多模态基础模型和个性化代理。
前沿问题与机遇:深入探讨未解决的挑战(如长序列处理、可解释性)和新兴方向(如多模态代理 AI、RAG 增强推荐)。
在这里插入图片描述

2. FM4RecSys的研究进展

2.1 数据特征与表征学习

在基础模型(FM)时代之前,推荐系统主要依赖用户和物品的独热编码(one-hot encoding)进行表示。随着FM4RecSys的出现,研究开始转向更丰富的输入形式,如用户画像、物品辅助信息(side information)以及外部知识库(如维基百科),以提升推荐性能。具体而言,许多工作(如Bao et al., 2023c; Hua et al., 2023b)指出,构建基于FM的推荐系统的关键在于弥合FM预训练任务与推荐任务之间的差距。为此,现有研究通常将推荐数据转化为自然语言形式,以便在FM上进行微调(Zhu et al., 2023)。在这一过程中,每个用户/物品被赋予唯一的标识符(如用户画像、物品标题或数字ID),并将用户的历史交互记录转换为标识符序列。FM可以通过对这些标识符进行微调来学习其表示,从而优化推荐任务。

当前的推荐数据表示方法可分为三类:

  1. 基于ID的表示:在FM的背景下,近期研究(如Geng et al., 2022; Hua et al., 2023c)使用数字ID(如“user_123”或“item_57”)来表示用户和物品,以捕捉物品的唯一性。然而,数字ID缺乏语义信息,无法充分利用FM中丰富的知识。此外,FM需要足够的交互数据来微调每个ID的表示,这限制了其在大规模、冷启动和跨域推荐中的泛化能力。同时,ID索引需要更新词汇表以处理未登录词(OOV)问题,并调整FM的参数,这会带来额外的计算开销。
  2. 多模态表示:利用多模态辅助信息,如图像(如物品视觉信息,Sarkar et al., 2023)、文本(如物品标题、描述和评论,Li et al., 2023a; Zhang & Wang, 2023)、多模态内容(如短视频和音乐,Shen et al., 2022; Youwang et al., 2022)以及外部知识源(如维基百科中的物品关系,Zhai et al., 2023; Xi et al., 2023)。Yuan et al. (2023) 强调了基于多模态的推荐系统相较于基于ID的方法的性能优势。
  3. 混合表示:结合ID和多模态辅助信息,以同时实现独特性和语义丰富性。例如,TransRec(Lin et al., 2023d)使用多面标识符(ID、标题和属性)来增强物品表示的语义信息;CLLM4Rec(Zhu et al., 2023)通过硬提示和软提示将用户/物品ID与评论文本对齐,从而同时建模协同信息和内容语义。

2.2 FM4RecSys的分类框架

在这里插入图片描述

如图2所示,我们根据模型类型对FM4RecSys进行了结构化分类。与以往专注于LLM的综述不同,我们的框架不仅涵盖语言基础模型在推荐系统中的应用,还包括多模态FM和基于FM的个性化代理的研究。

语言基础模型在推荐系统中的应用

  1. 预训练模型:少数工作(如M6-Rec, Cui et al., 2022; PTUM, Wu et al., 2020)在大规模推荐数据集上对整个模型进行预训练,采用基于Transformer的架构进行下一项预测,并应用不同的语言建模任务(如掩码语言建模、排列语言建模等)。这类方法通常需要大量领域数据,训练成本较高。
  2. 直接微调模型
    • InstructRec(Zhang et al., 2023e)设计了丰富的指令模板(39种手动设计的模板),涵盖用户偏好、意图、任务形式和上下文。经过指令微调后,LLM能够理解并遵循不同的推荐指令。
    • TallRec(Bao et al., 2023b)采用参数高效微调方法LoRA(Hu et al., 2022),分两阶段微调LLM:先在Alpaca通用数据上微调,再结合用户历史信息微调,利用物品标题作为输入,在冷启动推荐中表现优异。
    • BIGRec(Bao et al., 2023a)指出LLM难以整合统计数据(如流行度和协同过滤信息),因此通过指令微调生成代表物品的标记,并将这些标记与推荐数据库中的真实物品对齐(加入流行度等统计信息)。
  3. 提示工程(Prompting)
    • 非调优范式(不改变LLM参数),通过设计合适的提示激发LLM的推荐能力。例如,Liu et al. (2023b) 提出了一个提示构建框架,评估ChatGPT在五种常见推荐任务中的能力,并提供零样本和少样本版本。
    • He et al. (2023b) 不仅评估LLM在序列推荐中的能力,还提出了基于时效性的提示和上下文学习策略,以缓解LLM的顺序感知和位置偏差问题。
    • 近期研究(如Xu et al., 2024)探索了新颖的提示结构。Yao et al. (2023) 在提示中加入物品属性的自然语言描述、基于文本模板的协同过滤信息和知识图谱推理路径;Rahdari et al. (2023) 设计了分层提示结构,封装推荐物品和用户历史交互中的Top-K相似物品信息。

基于FM的个性化代理推荐系统

在这里插入图片描述

代理可以表现为用户模拟器推荐系统本身(如图3所示)。

  1. 代理作为用户模拟器
    • 传统方法(如Zhu et al., 2017; Ie et al., 2019)难以模拟复杂的用户行为,而FM展现出潜力(Wang et al., 2023b)。
    • Wang et al. (2023b) 提出RecAgent,将每个用户建模为FM驱动的自主代理,在虚拟模拟器中交互,考虑浏览、点击等行为以及社交因素。
    • Zhang et al. (2023a) 进一步研究FM驱动的生成代理能否准确模拟真实用户行为(如电影推荐场景),设计了包含1000个LLM代理的模拟器Agent4Rec。
    • Zhang et al. (2023d) 将用户和物品均视为代理,通过协作学习优化交互。
  2. 代理作为推荐系统
    • Wang et al. (2023e) 提出自启发规划算法,利用历史路径指导下一步决策,结合数据库、搜索引擎和摘要工具生成个性化推荐。
    • Huang et al. (2023) 将FM作为“大脑”,推荐模型作为工具,解析用户意图并生成响应,核心工具包括信息查询、物品检索和排序,并通过候选记忆总线共享物品池。

多模态基础模型在推荐系统中的应用

  1. MFM作为特征编码器
    • 利用MFM强大的表示能力提取多模态特征(如ViT编码图像、CLIP编码图文、SentenceBERT编码文本、DeepSim编码音频、SlowFast编码视频)。
    • 关键挑战是如何对齐预训练目标与下游推荐任务。
  2. MFM作为推荐系统
    • VIP5(Geng et al., 2023)扩展了P5框架,结合多模态个性化提示和轻量级适配器微调,提升视觉-文本推荐性能。
    • KP4SR(Zhai et al., 2023)利用外部知识库和结构化知识提示,缓解序列推荐中的语义鸿沟。
    • Zhou et al. (2023b) 探索GPT-4V在视觉推荐中的零样本能力,但缺乏定量评估且存在样本偏差。

2.3 FM4RecSys的应用场景

Top-K推荐任务

挑战:用户信息过长可能超出FM的输入长度限制。
解决方案
• ID表示方法(Hua et al., 2023c)直接生成推荐(Xu et al., 2023b; Geng et al., 2022)。
• 多模态表示通过相似度计算排序(Liu et al., 2023e)。
• 借鉴NLP方法(Li et al., 2023d; Dai et al., 2023),选择K个负样本或难例与用户提示一起输入FM排序。

上下文感知推荐

• FM的世界知识和推理能力可增强推荐(Harte et al., 2023; Xi et al., 2023)。
• 例如:
• Wu et al. (2022) 基于用户画像生成个性化软提示,结合对比学习。
• Liao et al. (2023) 混合ID嵌入和文本特征,通过适配器桥接传统推荐与FM的模态差距。
• Wang et al. (2023f) 利用FM的推理能力,通过上下文示例检索抽象用户偏好。

交互式推荐

• FM提升了对话推荐系统(CRS)的交互自然性(He et al., 2023)。
• 近期工作(Liu et al., 2023a; Lin & Zhang, 2023)通过角色扮演提示让ChatGPT模拟用户交互,结合RAG和思维链(CoT)技术。
• 知识图谱增强方法(Wang et al., 2021; Zhang, 2023)利用FM生成对话并推荐物品。
局限性:流行度偏差和地域敏感性。

跨域推荐

• 基础模型的跨域类比推理能力(Hu et al., 2023)缓解数据稀疏性问题。
• 代表性方法:
• HAMUR(Li et al., 2023c)设计领域特定适配器和共享超网络。
• Tang et al. (2023) 混合多领域用户行为,用PLM建模。
• KAR(Xi et al., 2023)通过知识推理、适应和应用三阶段实现开放世界推荐。

可解释性与公平性

  1. 可解释性
    • 传统方法(Li et al., 2020)基于ID生成自然语言解释,但可能模糊。
    • Cui et al. (2022) 在提示中加入物品特征作为提示词。
    • Liu et al. (2023d)发现ChatGPT的零样本表现优于监督方法。
  2. 公平性
    • 用户侧:UP5(Hua et al., 2023a)基于反事实公平提示;Zhang et al. (2023c)评估ChatGPT在音乐/电影推荐中对敏感属性的公平性。
    • 物品侧:Hou et al. (2023b)将推荐任务形式化为条件排序任务。

核心贡献

  1. 系统性分类:首次从数据表征、模型类型和任务维度全面梳理FM4RecSys。
  2. 跨模态与代理视角:突破LLM局限,涵盖多模态FM和代理模拟研究。
  3. 前沿挑战:指出长序列处理、可解释性、时间外推等未解决问题,提出RAG、多模态代理等新方向。

3. 开放性问题与未来机遇

3.1 FM4RecSys中的长序列处理

FM4RecSys面临输入序列过长的问题,受限于基础模型的固定上下文窗口长度,这在需要大量上下文的任务(如上下文感知推荐)中表现尤为明显。例如,上下文感知推荐系统需要完整的用户交互历史和长候选列表,可能超出FM的处理能力,导致推荐效果下降。目前的研究尝试借鉴NLP技术,如分段输入、摘要生成、注意力机制优化(如RoPE旋转位置编码)等,以缓解这一限制。

3.2 可解释性与可信度

在FM时代,提升推荐系统的可解释性和可信度仍具挑战性。现有方法主要分两类:

  1. 生成自然语言解释:通过提示工程或知识图谱对齐(如逻辑推理路径)生成推荐理由,但解释的深度和逻辑性仍有不足。
  2. 模型内部机制分析:研究较少,需结合链式思考(Chain-of-Thought)等技术增强可追溯性。

3.3 时间序列外推

近期研究表明,FM能以零样本方式预测时间序列数据,性能媲美专用模型。这得益于FM对多模态分布的捕捉能力,尤其适合用户偏好这类具有周期性和趋势的数据。例如,LLMTIME2将时间序列编码为数值字符串,通过下一词预测实现连续预测,无需额外训练即可快速适应用户偏好变化。

3.4 多模态智能体AI在推荐系统中的应用

多模态智能体AI通过感知多模态环境(如视觉、上下文)生成交互式推荐,既能作为推荐系统模拟器,也能模拟用户行为,降低真实A/B测试成本。未来可扩展至医疗、路线规划等场景,但需解决实时反馈和个性化推理的挑战。

3.5 检索增强生成(RAG)与推荐系统的结合

RAG通过整合外部知识库增强FM的生成能力,尤其适合动态用户行为建模。例如:
解决输入长度限制:选择性检索用户历史中的关键片段。
减少幻觉推荐:通过实时知识更新避免生成不相关或虚构内容。

3.6 系统性能分析:API成本、训练与推理效率

成本挑战
训练阶段:大规模预训练和微调开销高昂,需依赖数据选择和参数高效微调(如LoRA)。
推理阶段:API调用成本随提示长度增加,需优化提示压缩或自适应RAG策略。
效率优化方向
训练成本:精选数据、轻量化适配器(如LoftQ)。
推理延迟:预计算嵌入缓存、模型蒸馏/量化。

3.7 基准测试与评估指标

现有基准(如LLM-Rec)局限于特定数据集(如Amazon Beauty)和任务,未来需构建更全面的评估框架,覆盖多模态、智能体推荐等场景,并设计领域相关的指标。

3.8 新兴趋势讨论

安全性:FM易受提示注入攻击(如生成有害内容),需通过人类偏好对齐和负样本训练提升安全性。
隐私保护:直接训练可能泄露用户交互数据,需探索联邦学习和机器遗忘技术。

关键问题总结

  1. 技术瓶颈:长序列处理、时间序列建模、多模态融合。
  2. 可信与伦理:可解释性、安全性、隐私保护。
  3. 落地成本:训练/推理效率、API经济性。
  4. 评估体系:需标准化基准和跨任务指标。

未来方向聚焦于高效适配(如轻量化微调)、动态知识整合(RAG)、多模态交互(智能体AI)及伦理对齐

4 总结

在本文中,我们对 FM4RecSys 进行了全面回顾,提供了详细的比较并强调了未来的研究路径。我们希望这项调查能为 RecSys 研究社区提供挑战和最新进展的概述,以及基础模型中的一些开放性问题和机遇。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值