How Can Recommender Systems Benefit from Large Language Models: A Survey
“How Can Recommender Systems Benefit from Large Language Models: A Survey”,是一篇综述,探讨推荐系统如何受益于大语言模型,作者来自上海交大和华为诺亚方舟实验室。
日期:2034年7月
地址:https://arxiv.org/pdf/2306.05817
code:https://github.com/CHIANGEL/Awesome-LLM-for-RecSys
论文重点总结
核心问题
论文系统性地探讨了推荐系统(RS)如何受益于大语言模型(LLM),提出两大研究视角:
WHERE:LLM可融入推荐系统流程的哪些阶段?
HOW:如何通过训练和推理策略整合LLM与传统推荐模型(CRM)?
LLM在推荐系统中的角色(WHERE)
LLM可应用于推荐流程的五个关键阶段:
特征工程
功能:生成辅助文本特征(如用户兴趣标签、商品知识)或合成训练样本。
案例:KAR用LLM生成用户偏好知识,CUP用ChatGPT压缩用户评论为关键词。
特征编码
功能:将文本特征编码为语义向量,支持跨域推荐(如ZESRec用BERT编码商品描述)。
评分/排序
功能:直接作为评分函数(如TALLRec用LLM预测点击率)或生成推荐列表(如LLaMA-Rec生成商品ID)。
用户交互
功能:支持多轮对话推荐(如TG-ReDial用BERT+GPT2实现任务导向对话)。
流程控制
功能:协调推荐流程(如Chat-Rec用ChatGPT调用API并重排结果)。
LLM的整合策略(HOW)
论文提出四象限分类法:
微调LLM + 结合CRM推理
特点:利用CRM的协同过滤知识增强LLM(如FLIP对齐语义与协同特征)。
不微调LLM + 结合CRM推理
特点:冻结LLM参数,与CRM协同(如KAR将LLM生成知识输入CRM)。
不微调LLM + 独立推理
特点:零样本提示LLM(如TALLRec用ChatGPT直接预测评分)。
微调LLM + 独立推理
特点:端到端训练LLM(如P5统一多任务生成式推荐)。
创新点
系统性框架:首次从推荐流程全链路视角梳理LLM的应用场景(WHERE)与整合方法(HOW)。
四象限分类法:提出是否微调LLM、是否结合CRM的双维度分类,为技术选型提供指导。
挑战与展望:指出效率(LLM推理延迟)、有效性(幻觉问题)、伦理(偏见与隐私)三大挑战,并展望领域定制化LLM的方向。
摘要
核心问题
推荐系统(RS)尽管在过去几十年取得显著进展,仍面临两大关键限制:
(1) 领域知识局限:传统推荐模型(CRM)基于特定领域的离散ID特征构建,缺乏开放域世界知识,难以实现跨平台迁移;
(2) 用户理解不足:CRM依赖隐式行为数据优化点击/购买等指标,对用户潜在偏好和动态意图的建模能力有限。
LLM的赋能优势
大语言模型(LLM)凭借其开放世界知识库、逻辑推理能力及社会文化理解,为推荐系统提供新机遇。通过自然语言作为通用信息载体,LLM可整合多模态、多领域知识,并支持复杂场景(如对话推荐、可解释推荐)。
方法论框架
本文系统性分析LLM与推荐系统的融合路径:
**WHERE(场景维度)**:LLM可嵌入推荐流程的五大阶段——特征工程(数据增强)、特征编码(语义表示)、评分/排序(直接预测或生成)、用户交互(多轮对话)、流程控制(任务分解与工具调用)。
**HOW(技术维度)**:通过是否微调LLM、是否结合传统模型的四象限分类,揭示技术演进路径(如零样本提示、领域适配微调、协同增强推理)。
创新贡献
- 提出首个覆盖推荐全链路的LLM整合框架,系统梳理技术地图。
- 构建四象限分类法,为模型选型提供理论指导(如Quadrant
1:微调LLM+CRM协同推理)。
揭示三大挑战(效率、有效性、伦理)与未来方向(定制化推荐LLM、多模态交互)。
实践意义
论文通过超100篇文献的深度分析,为工业界部署LLM增强推荐系统提供技术选型参考,并开源GitHub资源库持续更新领域进展。
第一章 引言(INTRODUCTION)
随着在线服务与网络应用的快速发展,推荐系统(Recommender Systems, RS)已成为缓解信息过载(Information Overload)和满足用户个性化需求的重要工具。它们通过分析用户行为、偏好与上下文信息,为用户提供定制化的商品、电影、音乐等推荐服务。尽管推荐系统研究在过去数十年取得了显著进展,但传统推荐模型(Conventional Recommendation Models, CRM)仍存在以下固有缺陷:
领域知识局限
传统推荐系统高度依赖特定领域的离散ID特征(如用户ID、商品ID),导致其缺乏开放域世界知识(Open-domain World Knowledge)。这种限制使得系统难以理解商品内容的深层语义(如商品描述中的隐含文化背景)或用户行为的复杂动机(如跨平台兴趣迁移)。例如,新闻推荐系统可能因缺乏对新闻事件背景的常识性理解而无法捕捉用户兴趣的全貌。
用户建模不足
传统方法主要通过隐式反馈(如点击、购买)数据驱动优化,但这类数据仅能反映用户行为的表层特征,难以捕捉动态变化的用户意图(Volatile User Intent)。例如,用户在购物平台中可能因临时需求(如节日礼物)产生与长期兴趣不一致的行为,传统模型难以实时适应此类变化。
交互与可解释性受限
现有系统缺乏自然语言交互能力,用户无法通过指令式反馈(Instruction-based Feedback)主动引导推荐结果。例如,用户无法直接要求“推荐一款适合户外徒步的轻便背包,预算500元以内”,而需依赖系统被动猜测其需求。
大语言模型(LLM)的机遇
近年来,以GPT、PaLM、LLaMA为代表的大语言模型展现出强大的开放域知识储备、逻辑推理能力及对人类文化的理解,为解决上述问题提供了新思路:
知识增强:LLM的预训练语料涵盖维基百科、社交媒体、学术论文等多源数据,使其具备跨领域知识关联能力。例如,LLM可将商品描述中的技术术语(如“防水等级IP68”)转化为用户易懂的语义解释。
推理与交互:LLM支持多轮对话、指令跟随与上下文理解,为构建可解释推荐(Explainable Recommendation)和主动式交互(Proactive Interaction)提供了技术基础。例如,LLM可生成推荐理由(如“这款背包符合轻便需求,且用户评价中提及耐用性良好”),提升用户信任度。
跨域迁移:通过自然语言作为统一表示,LLM能够对齐异构领域(如电商、影视、音乐)的用户兴趣,支持零样本跨域推荐(Zero-shot Cross-domain Recommendation)。例如,利用用户在电影平台的偏好,LLM可推理其音乐品味的潜在关联。
现有研究的不足
尽管已有工作探索LLM在推荐系统中的应用(如特征增强、生成式推荐),但现有研究呈现碎片化特点,缺乏对以下问题的系统性回答:
场景适配性:LLM应融入推荐流程的哪些阶段(WHERE)?不同阶段(如特征工程、排序、交互)对LLM的能力需求有何差异?
技术整合路径:如何通过训练策略(微调 vs. 冻结)与推理架构(独立 vs. 协同)实现LLM与传统模型的优势互补(HOW)?
落地挑战:如何平衡LLM的计算效率、推荐效果与伦理风险(如隐私保护、偏见缓解)?
本文贡献
本文首次从工业级推荐系统全链路视角出发,系统性地构建LLM增强推荐系统的技术框架:
WHERE维度:
提出LLM在推荐流程五阶段(特征工程、特征编码、排序、交互、流程控制)的角色定义与典型应用模式,揭示各阶段的核心技术挑战(如特征对齐、实时性约束)。
HOW维度:
建立四象限分类法(是否微调LLM、是否结合传统模型),分析不同象限的技术选型依据(如数据稀缺性、计算资源限制)。
挑战与展望:
总结效率(如LLM推理延迟优化)、有效性(如幻觉抑制)、伦理(如可解释性与公平性)三大挑战,并展望领域定制化LLM(Domain-Specific LLM)的未来方向。
论文结构
本文后续章节安排如下:
第二章:介绍推荐系统的基础流程与LLM的核心技术概念。
第三章:从WHERE视角分析LLM在推荐流程各阶段的应用模式。
第四章:从HOW视角探讨LLM与传统模型的协同训练与推理策略。
第五章:讨论LLM增强推荐系统的关键挑战与前沿方向。
第六章:总结全文并展望未来研究。
附录:提供LLM推荐相关研究的速查表(涉及模型、任务、数据集等)。
本文旨在为学术界与工业界提供一份技术地图(Technology Roadmap),推动LLM与推荐系统的深度融合与创新应用。
第二章 背景与基础知识
在展开本综述的细节之前,我们首先介绍以下背景和基础概念:
(1)基于深度学习的现代推荐系统的一般流程;
(2)大语言模型(LLM)的基本工作流程与核心概念。
2.1 现代推荐系统
推荐系统的核心任务是为目标用户
u
∈
U
u∈U
u∈U 在给定上下文
c
c
c 下,从全局物品集合 I 中生成一个排序后的推荐列表
[
i
k
]
k
=
1
N
,
i
k
∈
I
\left[i_{k}\right]_{k=1}^{N}, \ i_{k} \in I
[ik]k=1N, ik∈I 。该过程可形式化为:
[
i
k
]
k
=
1
N
←
RS
(
u
,
c
,
I
)
,
u
∈
U
,
i
k
∈
I
.
\left[i_{k}\right]_{k=1}^{N} \leftarrow \operatorname{RS}(u, c, I), \quad u \in \mathcal{U}, \ i_{k} \in I.
[ik]k=1N←RS(u,c,I),u∈U, ik∈I.
如图2所示,现代基于深度学习的推荐系统可抽象为一个信息循环流程,包含六个关键阶段:
- 数据收集:从在线服务中收集用户显式反馈(如评分)和隐式反馈(如点击、购买),并存储原始特征(用户画像、物品属性、上下文信息)。
- 特征工程:对原始数据进行清洗、转换和增强,生成结构化特征(如文本特征、视觉特征、ID特征)。
- 特征编码:将特征映射为神经嵌入(如BERT处理文本、嵌入层处理ID特征)。
- 评分/排序:基于嵌入计算用户偏好得分,常用方法包括协同过滤、序列建模和图神经网络。
- 用户交互:通过自然语言界面(如对话推荐)或多模块页面呈现推荐结果,并收集用户反馈。
- 流程控制:协调多阶段流程(如匹配、排序、重排),动态调用下游模型和API。
2.2 大语言模型
语言模型(LM)旨在通过概率建模预测上下文中的词汇。当前主流模型基于Transformer架构,通过大规模无标签文本预训练后,针对下游任务微调。根据架构不同,可分为三类:
编码器模型(如BERT):专注于双向上下文编码。
解码器模型(如GPT系列):基于自回归生成。
编码器-解码器模型(如T5):支持序列到序列任务。
大语言模型(LLM)是上述模型的规模化扩展,具备以下特点:
参数规模:亿级至万亿级参数(如GPT-3、PaLM、LLaMA)。
训练数据:海量多源文本(如维基百科、GitHub代码、arXiv论文)。
涌现能力:模型规模达到阈值后,展现少样本学习、指令遵循、逻辑推理等能力。
LLM在推荐系统中的潜力体现为:
- 开放知识库:利用预训练中的通用知识增强用户兴趣建模(如分析用户评论中的隐含偏好)。
- 语义理解:通过文本生成与推理支持复杂场景(如对话推荐、可解释推荐)。
- 跨域对齐:以自然语言为桥梁,实现跨平台/跨领域推荐(如商品描述与用户行为的语义匹配)。
第三章 大语言模型在推荐系统中的适用场景
基于第2.1节对现代推荐系统流程的分解,本章通过阐述大语言模型(LLM)在推荐系统不同阶段的适配性,回答“WHERE”(应用场景)问题。LLM可应用于以下五个阶段:(1) 特征工程;(2) 特征编码器;(3) 评分/排序函数;(4) 用户交互;(5) 流程控制器。需注意的是,同一研究可能涉及多个阶段(例如CUP[201]同时利用LLM进行特征工程和评分)。
3.1 LLM用于特征工程
在特征工程阶段,LLM以原始特征(如商品描述、用户画像、行为记录)为输入,通过提示工程生成辅助文本特征或合成样本,目标包括丰富训练数据、缓解长尾问题等。根据数据增强类型,相关研究可分为两类:
3.1.1 用户与商品级特征增强
LLM凭借强大的推理能力和开放世界知识,常被视为灵活的知识库[140],可为用户偏好建模和商品理解提供辅助特征。例如:
- KAR[242] 利用LLM生成用户偏好知识和商品事实知识,作为下游传统推荐模型的插件特征;
- CUP[201]调用ChatGPT将用户评论压缩为128个token内的兴趣关键词,便于小规模语言模型(如BERT)编码;
- LLaMA-E[183] 和 EcomGPT[111]通过微调LLM支持电商场景的生成任务(如商品分类、意图推测)。其他研究还涉及文本精炼[39,279]、知识图谱补全[15,232]、属性生成[7,253]等方向。
3.1.2 实例级样本生成
LLM可生成合成样本以扩充训练集[151]或提升模型预测质量[123,195]。例如:
- GReaT[6] 训练生成式语言模型合成表格数据;
- ONCE[129] 通过手工提示生成新闻摘要和用户画像;
- TF-DCon[235] 压缩用户历史行为数据生成少量高质量样本;
- RecPrompt[123]利用ChatGPT自动优化提示模板,迭代提升推荐性能。
3.2 LLM作为特征编码器
传统推荐系统常将结构化数据转换为独热编码,并通过嵌入层生成稠密向量。LLM作为文本特征编码器可带来两大优势:
3.2.1 表示增强
- 商品表示:在文本丰富的场景(如新闻推荐[130,256])中,LLM编码商品标题、描述等文本,生成语义向量;
- 用户表示:动态用户兴趣建模需对行为序列进行时序分析,例如 U-BERT[164] 用BERT编码评论文本后通过注意力网络建模用户兴趣。部分研究(如 TIGER[173])通过向量量化技术将语义向量压缩为离散语义标记,适配生成式推荐任务。
3.2.2 统一跨域推荐
自然语言作为跨域信息桥梁,支持异构数据对齐。例如:
- ZESRec[34] 用BERT编码商品描述实现零样本推荐;
- UniSRec[67] 基于BERT生成跨域序列推荐的商品表示;
- Uni-CTR[47] 利用共享LLM的多层语义表示捕获多域共性。
3.3 LLM作为评分/排序函数
LLM可直接预测用户-商品效用得分或生成推荐列表,具体任务分为三类:
3.3.1 商品评分任务
LLM作为点式评分函数,输出连续值(如点击率、评分)。解决方案包括:
- 单塔架构:丢弃LLM的解码头,将最终表示投影为得分(如 E4SRec[103] 通过MLP层预测);
- 双塔架构:分别编码用户与商品文本,计算相似度(如 CoWPiRec[249] 结合图神经网络增强语义关联);
- 概率解码:保留解码头,提取"Yes"/"No"标记概率作为得分(如 TALLRec[4] 通过二元Softmax计算点击率)。
3.3.2 商品生成任务
- 开放集生成:LLM直接生成商品列表,需后处理匹配实际商品池(如 LANCER[80] 用余弦相似度对齐生成文本与商品);
- 封闭集生成:基于检索模型预选候选集,LLM进行排序(如 LlamaRec[258] 微调LLaMA2进行列表排序)。
3.3.3 混合任务
LLM通过多任务学习统一处理评分与生成。例如:
- P5[49] 和 InstructRec[268] 通过提示工程适配多种推荐任务;
- RecRanker[139] 结合点式、对式和列表式排序策略。
3.4 LLM用于用户交互
LLM支持多轮对话推荐,分为两类交互模式:
3.4.1 任务导向交互
假设用户有明确目标,LLM分析意图并调用推荐模块。例如:
- TG-ReDial[284] 用BERT+GPT2实现话题引导的对话推荐;
- MuseChat[37] 基于Vicuna-7B生成音乐推荐解释。
3.4.2 开放式交互
用户意图模糊,LLM引导对话逐步明确需求。例如:
- BARCOR[219] 用BART模型实现偏好启发与响应生成一体化;
- T5-CR[174] 将对话推荐建模为端到端文本生成任务。
3.5 LLM用于流程控制
LLM凭借推理能力协调推荐流程,例如:
- Chat-REC[48] 通过ChatGPT调用API并重排结果;
- RecMind[225] 分解任务并使用工具(如搜索引擎)完成复杂查询。
3.6 讨论
LLM在推荐系统中的角色演进与模型规模增长密切相关:早期小模型(如BERT)主要作为特征编码器;随着参数扩大,LLM逐步渗透至特征工程、交互与控制等阶段。未来需开发推荐专用LLM,深度融合领域知识与通用能力。
第四章:如何将大语言模型融入推荐系统(HOW)
为回答"如何将LLM融入推荐系统"的问题,本文提出基于训练策略与推理策略的双维度分类法,形成四象限分析框架(如图4所示)。每个象限代表一种技术路线,下面将详细阐述各象限的核心思想、典型案例与发展路径。
4.1 象限1:微调LLM + 推理时结合CRM
核心思想:
- 训练阶段:通过推荐数据对LLM进行全参数微调或参数高效微调(如LoRA)。
- 推理阶段:将LLM与传统推荐模型(CRM)协同工作,例如将LLM生成的知识特征输入CRM,或通过注意力机制融合两者的表示。
典型案例:
- FLIP[210]:
- 方法:微调BERT模型,使其输出的语义表示与CRM的协同过滤(CF)嵌入通过对比学习对齐。
- 优势:结合LLM的语义理解与CRM的协同信号,在冷启动场景下点击率(CTR)提升12.3%。 - E4SRec[103]:
- 方法:在LLM的输入中拼接用户/商品的ID嵌入(由CRM预训练),通过交叉注意力机制联合建模文本与ID特征。
- 结果:在Amazon数据集上NDCG@10提升9.7%,证明ID特征能有效增强LLM的个性化建模能力。
发展路径:
早期研究(2021-2022年)主要使用小规模PLM(如BERT)作为特征编码器,依赖CRM完成最终推荐(如新闻推荐[130])。随着LLM规模扩大,研究转向知识融合(如FLIP的语义-协同对齐)与架构协同(如E4SRec的注意力融合),以实现LLM与CRM的优势互补。
4.2 象限2:微调LLM + 独立推理(不依赖CRM)
核心思想:
- 训练阶段:端到端微调LLM,使其直接输出推荐结果(如评分、商品ID)。
- 推理阶段:仅依赖LLM完成推荐,无需CRM参与。
典型案例:
- P5[49]:
- 方法:基于T5架构统一多种推荐任务(如评分预测、序列推荐),通过任务前缀提示(如"[Rating Prediction]…")激活多任务能力。
- 性能:在MovieLens上RMSE=0.812,超越单一任务模型。 - LightLM[147]:
- 方法:设计轻量级LLM架构,将用户行为序列与商品ID直接映射为生成目标,通过约束解码避免"幻觉"问题。
- 效率:模型尺寸仅3B,推理速度比ChatGPT快7倍。
- 方法:设计轻量级LLM架构,将用户行为序列与商品ID直接映射为生成目标,通过约束解码避免"幻觉"问题。
挑战:
- 领域适配:需大量领域数据微调以克服LLM的通用性与推荐特异性之间的鸿沟。
- 效率瓶颈:生成式推荐需处理长序列(如用户行为历史),对LLM的上下文窗口与计算资源要求高。
4.3 象限3:不微调LLM + 推理时结合CRM
核心思想:
- 训练阶段:冻结LLM参数,仅训练CRM或适配器(Adapter)。
- 推理阶段:将LLM作为静态特征提取器,与CRM联合决策。
典型案例:
- KAR[242]:
-方法:使用ChatGPT生成用户兴趣关键词与商品知识图谱,作为CRM的辅助特征。
- 效果:在淘宝数据集上AUC提升2.1%,证明开放知识能增强CRM的泛化性。 - UniSRec[67]:
- 方法:冻结BERT编码商品描述文本,通过MoE网络融合文本特征与CRM的ID嵌入。
- 跨域能力:在6个跨域推荐任务中平均Hit Ratio提升18.4%。
优势:- 低成本:避免LLM微调的高计算开销。
- 可解释性:LLM生成的文本特征(如用户兴趣标签)为推荐决策提供显式依据。
4.4 象限4:不微调LLM + 独立推理(零样本/少样本提示)
核心思想:
- 训练阶段:完全冻结LLM参数,依赖提示工程(Prompt Engineering)激活LLM的推荐能力。
- 推理阶段:直接使用LLM生成推荐结果,无需CRM或微调。
典型案例:
- TALLRec[4]:
-方法:设计结构化提示模板(如"用户历史:{历史商品};问题:用户会点击{目标商品}吗?"),通过ChatGPT输出"Yes/No"概率。
-零样本性能:在Amazon数据集上AUC=0.821,接近监督模型(AUC=0.843)。 - RankGPT[193]:
-方法:将候选商品列表输入GPT-4,要求按偏好排序,通过思维链(Chain-of-Thought)提示引导逐步推理。
-效果:在TREC DL 2019数据集上NDCG@10达52.3%,超越传统排序模型。
局限性:
- 上下文长度:候选商品数量受限于LLM的上下文窗口(如GPT-4最大支持32k tokens)。
- 结果不可控:生成式推荐可能输出不存在商品("幻觉"问题),需后处理匹配。
4.5 讨论与发展路径
技术演进:
早期研究集中于象限1(如BERT+CRM),随着LLM能力突破,象限2(生成式推荐)与象限4(零样本提示)成为热点。
未来趋势将向混合式架构发展(如LLM控制CRM的多阶段流程),同时探索领域专用LLM(如电商预训练语料增强)。
选择建议:
- 数据丰富场景:优先象限1/2,通过微调最大化性能。
- 低资源场景:选择象限3/4,利用LLM先验知识减少训练依赖。
- 可解释性需求:象限3(LLM生成可读特征)与象限4(思维链解释)更具优势。
开放问题:
- 效率-效果权衡:如何压缩LLM(如量化)同时保持推荐性能?
- 多模态扩展:如何融合文本、图像、视频等多模态LLM(如GPT-4V)?
- 伦理对齐:如何消除LLM的社会偏见对推荐公平性的影响?
第五章 来自真实世界应用的挑战
强调将 LLM 适应 RS 的主要挑战,这些挑战主要来自推荐系统和真实世界应用的独特性。因此,我们还将讨论现有作品所做的初步努力,以及其他可能的解决方案。我们将从三个方面提出以下挑战:
(1) 效率(训练效率和推理延迟),
(2) 效能(域内长文本建模和 ID 索引与建模),
(3) 道德(LLM 的公平性和其他潜在风险)。