AAAI 2025 | 基于LLM的推荐系统用户模拟器

今天跟大家分享一篇来自于吉林大学、香港城市大学、快手科技、西安交通大学在AAAI 2025联合发表的基于LLM的推荐系统用户模拟器。

用户模拟器能够快速生成大量实时的用户行为数据,为在线推荐系统提供测试平台,从而加速其迭代和优化。然而,现有的用户模拟器普遍存在显著的局限性,包括用户偏好建模不透明、无法评估模拟效果等。论文设计了一种由大语言模型驱动的推荐系统用户模拟器,以一种显式的方式模拟用户与商品的交互过程。 利用大语言模型的世界知识和推理能力,论文提出了一种逻辑模型实现用户商品交互模拟,并集成了统计模型提高模拟可靠性。**与现有的基于大型语言模型的方案相比,该方法在推理阶段无需调用大型语言模型,既利用了其强大的推理能力,又避免了引入额外的时间开销和幻觉问题。**通过在多个数据集上进行的定性和定量实验,论文验证了该模拟器在各种推荐场景中的有效性和稳定性。

论文:https://arxiv.org/abs/2412.16984

代码:https://github.com/Applied-Machine-Learning-Lab/LLM_User_Simulator

1 研究动机

用户在线交互数据能够反映实时反馈和偏好,对持续优化推荐系统至关重要。然而,由于收集开销和隐私问题,获取真实用户的交互数据面临诸多挑战,因此有效模拟用户交互成为亟待解决的难题。用户模拟器可以快速生成交互数据,促进推荐系统的评估,同时保护用户隐私。

推荐系统用户交互逻辑

用户与商品的交互可以分为两个阶段:首先是认识商品,即了解商品的基本信息;其次是理解商品是否符合个人兴趣。以电影推荐为例,用户首先了解电影的类型,潜在的喜好或厌恶因素等客观信息;随后,用户从主观角度评估该电影是否符合自身兴趣,通常基于历史偏好或其他用户的评价。

本文的主要贡献可以被概括为以下三点:

  1. 分析用户与推荐商品交互的内在逻辑,在此基础上利用大语言模型分析商品特征并提炼用户偏好,提出一种推断用户交互行为的逻辑模型,为用户行为模拟提供了新的思路和方法。

  2. 构建了一个由基于规则的逻辑模型和数据驱动的统计模型组成的集成模型。结合了逻辑推理和统计学习的优势,能够更有效地模仿人类的交互行为。

  3. 在五个基准数据集上(POI、音乐、电影、游戏和动漫领域)进行了定性和定量实验。通过在多样化的数据集上进行实验,验证了所提出方法的有效性和稳定性。

2 方法

2.1 概述

基于用户商品交互逻辑,本文设计了一种基于大语言模型的用户模拟器,用于显式地模拟用户的交互过程(如下图)。具体而言,本文通过大语言模型分析商品,生成可能的喜欢或不喜欢原因,并总结为关键词。这些关键词既基于商品的客观描述,也来源于用户的评价文本,从而涵盖了商品的客观与主观特征。

在推理阶段,给定候选商品,模拟器会将其潜在的喜好/不喜欢原因与用户历史中相似商品的交互原因进行匹配,最终预测用户的交互结果。本文综合使用匹配度、相似度计算和传统统计模型,从逻辑与统计分析两个维度共同评估交互结果,以确保模拟的可靠性。

2.2 商品描述收集

商品描述收集是用户模拟器的基础,它为后续的用户偏好分析和交互模拟提供了必要的信息。 文章通过LLM对商品的事实描述进行分析,确定商品类别(),并挖掘用户喜欢()和不喜欢()的客观原因及相关关键词。通过设计特定的提示模板(如 )引导 LLM 生成全面且有针对性的描述,并采用思维链(CoT)方法提升输出质量,最后对提取的关键词进行筛选优化。 商品描述收集分为客观商品描述收集和主观商品描述收集两部分,两个过程使用的prompt如下图所示。

  • 客观商品描述收集:通过分析商品的事实性描述,确定商品的类别(如电影的类型),并从商品的基本信息(如名称、属性和类别)出发,利用LLM生成商品可能引起用户喜欢或不喜欢的客观原因。例如,在电影推荐中,LLM会根据电影的属性和类别,生成该电影的优缺点及其对应的证据和关键词。这些关键词和证据为后续的用户偏好分析提供了客观依据。

  • 主观商品描述收集:用户对商品的主观看法会受到公众意见的影响。因此,文章通过分析用户评论,提取出反映用户喜欢或不喜欢情感的关键词。具体来说,根据用户的评分和评论,LLM会生成与评分相对应的商品优点及其关键词和证据。

客观商品描述收集prompt

主观商品描述收集prompt

将客观和主观商品描述收集到的关键词合并,形成全面的商品描述,为用户模拟器提供了丰富的商品信息。

2.3 逻辑模型设计

逻辑模型是用户模拟器的核心,它基于用户与推荐项目交互的基本逻辑,模拟用户对候选项目的喜好或不喜欢。逻辑模型包括关键词匹配模型和相似度计算模型。

  • 关键词匹配模型:该模型专注于文本关键词的直接匹配。首先,从用户的历史交互项目中提取与候选项目相同类别的项目,然后分别提取出用户喜欢和不喜欢的项目集合。接着,计算候选项目的潜在喜欢/不喜欢原因与用户历史喜欢/不喜欢项目的原因之间的关键词匹配数量。通过比较匹配数量的多少,判断用户对候选项目的倾向。

  • 相似度计算模型:为了更细致地理解用户偏好,该模型利用嵌入表示来计算候选项目的优缺点与用户历史喜欢/不喜欢项目之间的相似度。具体来说,使用BERT等预训练语言模型将关键词转换为嵌入向量,然后计算候选项目的优缺点嵌入向量与用户历史喜欢/不喜欢项目的嵌入向量之间的余弦相似度。通过比较相似度的大小,进一步判断用户对候选项目的倾向。

2.4 统计模型引入

为了提高用户交互模拟的准确性和可靠性,文章引入了数据驱动的统计模型。该模型采用深度模型(如SASRec),在用户的历史交互数据上进行预训练,以捕捉用户行为的统计规律。预训练好的统计模型能够为用户模拟器提供一个基于数据的预测结果,增强模拟的稳定性。

2.5 集成模型构建

将上述关键词匹配模型、相似度计算模型和统计模型组合成一个整体的用户模拟器。在强化学习推荐系统训练中,根据三个模型的综合结果确定奖励函数(),以此来模拟用户在不同推荐场景下的行为反应。

3 实验

3.1 实验设置

数据集统计

文章选用 Yelp、Amazon Music、Amazon Games、Amazon Movie 和 Anime 等五个涵盖不同领域的数据集,将评分数据转换为二元格式(如评分≥3 记为 1,否则记为 0),以便于实验处理和分析。选用 ChatGLM - 6B 作为 LLM,并采用 A2C、DQN、PPO 和 TRPO 等具有代表性的强化学习算法进行实验,评估模拟器在不同算法环境下的性能表现。

3.2 实验结果

强化学习推荐系统性能比较

实验结果显示,DQN 算法在平均奖励、总奖励等关键指标上表现突出,优于其他强化学习算法。这主要归因于 DQN 算法在处理离散动作空间任务方面具有独特的优势,其能够更有效地估计每个动作的预期回报,并且通过经验回放和目标网络等技术进一步提升了性能。同时,各算法在推荐的喜好比例上均表现出较好的水平,这表明所提出的用户模拟器能够为不同算法提供稳定且可靠的交互环境,有效模拟用户的行为偏好。

3.3 Case study

以 DQN 算法在 Yelp 数据集上的推荐过程为例进行详细分析。在具体案例中,展示了组合模型中各个模型对推荐商品的推断细节,如对于某些推荐商品,关键词匹配模型()通过对比其与历史商品的关键词匹配情况给出相应的判断结果,相似度计算模型()则依据语义嵌入向量的相似度进行推断。特别在面对新类型商品时,虽然逻辑模型可能在精度上受到一定影响,但统计模型能够发挥其基于历史数据学习的优势进行补充,充分体现了组合模型的协同作用和优势。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
### 关于 AAAI 2025 的会议论文日程 目前尚未有具体公开的 AAAI 2025 论文日程安排信息,因为该年份的会议通常会在前一年或更早时间才发布详细的计划和接受的论文列表[^1]。然而,可以参考以往的 AAAI 大会模式来推测其可能的日程结构。 #### 常规流程概述 AAAI(The Association for the Advancement of Artificial Intelligence)大会一般分为以下几个部分: - **提交截止日期**:通常在前一年的夏季至秋季之间公布论文提交的时间窗口。 - **通知作者阶段**:评审完成后,大约在当年年底之前向作者发送录用结果的通知。 - **最终版本提交**:被录取的论文需按照指定模板完成修改并重新提交。 - **电子材料准备**:类似于 COLING 2022 中提到的内容,在正式召开前数周准备好所有预印本供参会者查阅[^2]。 对于具体的论文展示环节而言,以下是常见的组成部分: - 口头报告(Oral Presentations) - 海报张贴(Poster Sessions) 考虑到 ICLR 2019 曾经特别关注过对抗样本等领域研究趋势的情况[^3],预计未来几年内的顶级人工智能学术论坛也会继续围绕这些热点展开深入探讨;而 ECCV 和 ICML 则分别代表计算机视觉以及机器学习方向上的高水平成果交流平台[^4]。 尽管现在还没有确切消息表明哪些主题将成为明年重点讨论对象之一 ,但基于过去几年的发展轨迹来看,“大模型”、“多模态融合技术应用进展”,还有“强化学习新算法探索”等方面很可能会成为重要议题。 ```python # 示例代码用于说明如何查询特定网站获取最新动态(仅作为演示用途) import requests from bs4 import BeautifulSoup def fetch_conference_info(url): response = requests.get(url) soup = BeautifulSoup(response.text,"html.parser") titles=soup.find_all('h2') # Assuming h2 tags contain relevant info like schedules etc. return [title.string.strip() for title in titles] conference_url="http://www.aaai.org/" # Replace with actual URL when available closer to event date print(fetch_conference_info(conference_url)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值