PaRT: Enhancing Proactive Social Chatbots with Personalized Real-Time Retrieval
摘要
社交聊天机器人在日常场景中已成为重要的智能伴侣,从情感支持到个人互动。然而,传统的聊天机器人通常采用被动响应机制,依赖用户通过提出新话题来发起或维持对话,导致参与度降低和对话时长缩短。本文提出了PaRT框架,通过个性化实时检索和生成,使社交聊天机器人能够进行上下文感知的主动对话。具体来说,PaRT首先将用户资料和对话上下文整合进大型语言模型(LLM),该模型最初被提示用于完善用户查询并识别其对接下来对话的潜在意图。在精炼的意图指导下,大型语言模型(LLM)生成个性化对话主题,这些主题随后作为针对性查询,从红笔记中检索相关段落。最后,我们用总结过的段落提示LLM,以生成知识丰富且参与度优化的回应。我们的方法已在实际生产环境中稳定运行超过30天,对话平均时长提升了21.77%。
###CCS概念
●信息系统→个性化;语言模型。
###关键词
社交聊天机器人、RAG、LLM
第四十八届国际计算机协会信息检索特别兴趣小组(SIGIR)研究与开发会议论文集上发表。2025年7月13日至18日,意大利帕多瓦。美国纽约州计算机协会,6页。https://doi.org/10.1145/3726302.3731946
全文AI总结
这篇文章介绍了PaRT,一种通过个性化实时检索增强社交聊天机器人主动对话能力的框架。
研究背景
- 背景介绍:
这篇文章的研究背景是社交聊天机器人在日常场景中变得越来越重要,从情感支持到个人互动。然而,传统的聊天机器人通常依赖于用户发起或维持对话,导致用户参与度下降和对话时间缩短。 - 研究内容:
该问题的研究内容包括提出一种名为PaRT的新框架,通过个性化实时检索和生成来增强社交聊天机器人的主动对话能力。PaRT框架包括用户画像、意图引导的查询优化器和检索增强生成三个关键组件。 - 文献综述:
该问题的相关工作有:最近的大型语言模型(LLMs)的进步显著推动了社交聊天机器人[2,45]的发展,使其表现出越来越智能和类人的行为。然而,当前的社交聊天机器人主要强调对用户请求提供全面和情感化的响应[25, 33],忽视了在对话中主动参与的重要性[9,11,19]。现有的主动对话实现通常直接提示LLMs生成话题,导致内容过于泛化,无法与用户偏好对齐,并且受限于LLMs的知识边界[30, 40]。
核心内容
-
PaRT框架:
-
-
用户画像:
通过主动提问和记忆提取构建详细的用户画像,持续更新用户偏好。
-
意图引导的查询优化器:
基于LLM分析对话上下文,识别用户意图(自然过渡、显式检索和隐式检索),并优化查询以匹配用户偏好。
-
检索增强生成:
使用RedNote搜索引擎进行实时信息检索,总结检索到的段落以减少无关信息的干扰,并提示LLMs生成与个性化查询对齐的响应。
-
-
实验设计:
-
-
数据集构建:
构建了一个包含11,455个样本的高质量数据集,并使用Qwen2系列模型进行监督微调(SFT)。
-
模型训练:
使用Qwen2-72B-Instruct进行对话生成,Qwen2-7B-Instruct用于其他组件,优化上下文长度为2048,学习率为5e-6,采用余弦衰减调度,批量大小为2,梯度累积4步,训练3个周期。
-
评估指标:
使用LLM-based评估方法,评估检索性能和生成质量。检索性能使用Precision@k(P@k)指标,生成质量评估包括个性化、信息量和沟通技巧三个维度。
-
-
结果与分析:
-
-
检索性能:
使用重写查询方法的检索性能比原始用户查询方法提高了31.71%,P@k在检索更多段落时下降较慢,表明基于LLM的查询重写显著提高了检索性能。
-
生成性能:
个性化生成方法在所有评估指标上均优于直接生成方法,PaRT在所有评估指标上均表现最佳,表明将个性化检索纳入生成过程显著提高了响应质量。
-
在线实验:
在线A/B测试结果显示,PaRT在平均对话时长上比基线方法提高了21.77%,表明该方法有效增强了用户参与度。
-
结论
这篇论文提出了PaRT框架,通过集成用户画像、意图引导的查询优化器和检索增强生成,使社交聊天机器人能够进行主动对话和实时信息丰富。实验结果表明,PaRT显著提高了对话质量和用户参与度。
这篇论文通过实验证明了PaRT框架在提高社交聊天机器人主动对话能力方面的有效性,并展示了其在实际应用中的潜力。
正文
1 引言
大型语言模型(LLMs)[1,3, 28]的最新进展显著推动了社交聊天机器人[2,45]的发展,使其表现出越来越智能和类似人类的行为,引起了广泛关注。尽管取得了这一进步,当前的社交聊天机器人主要强调对用户请求提供全面和情感化的回应[25, 33],忽略了在对话中积极与用户互动的重要性[9,11,19]。例如,仅依赖被动对话策略的传统聊天机器人[9, 19]常常限制了对话的深度和自然延伸,要求用户不断发起并推动对话,导致用户参与度降低和互动时长缩短。
主动对话作为提升对话式人工智能中用户参与度的有希望解决方案而出现。根据已建立的主动性定义[9, 12],这些系统在互动过程中主动发起或转换话题,而不是维持对用户的被动响应。例如,他们可能会用特定领域的提示(例如,“您最感兴趣的旅游景点是哪些?”)发起对话,或者在检测到用户兴趣减弱时动态转换话题[14,41]。目前的主动对话实现通常直接提示大型语言模型生成话题,导致两个关键限制:1)内容过于泛化。直接提示通常产生与用户偏好不符的通用话题,降低交互质量;2)知识边界:大型语言模型在知识方面的固有限制,限制了它们在与实时上下文信息相关的特定领域和最新对话中的持续能力[30, 40]。
为了应对这些挑战,我们提出了PaRT,它通过个性化的实时检索增强了主动社交聊天机器人。我们提出的PaRT采用了一个统一的框架,解决了两个基本的主动对话场景,如图1所示。这两种场景都由三个关键组件支持:用户画像、意图引导的查询精炼器和检索增强的生成。特别是,用户画像模块通过主动提问和记忆提取构建详细的用户画像,奠定基础[10, 20, 43]。随后,意图引导的查询精炼器分析对话上下文以识别用户意图,这包括自然过渡、显式检索(直接的信息请求)和隐式检索(话题变化的信号)。根据识别的意图和用户画像[34, 42],然后将其当前查询细化为个性化查询。这一经过细化的查询作为即将进行的对话主题的具体表现形式。利用定制化查询,检索增强生成模块从RedNote1进行检索,并总结这些检索到的段落以减少无关信息的干扰[21, 36]。然后我们提示用总结的文本提示大型语言模型(LLM)生成与个性化查询高度一致的响应[16, 18]。无论是离线还是在线实验结果都表明,PaRT显著提升了生成质量并提高了用户参与度。
总结来说,我们的贡献如下:
(1)据我们所知,这是首项提出通过个性化实时检索来提升主动社交聊天机器人性能的工作,该方法通过发起和指导对话话题显著提高了生成质量,有效增强了用户参与度。
(2)我们的方法通过利用用户画像、意图引导的查询细化器和检索增强生成,实现了具有个性化实时检索的有效主动对话体验。
(3)所提出的PaRT已在实际生产环境中成功部署超过30天,通过提高平均对话时长21.77%取得了显著成果。
2 提出的PaRT的详细信息
PaRT的架构如图2所示。在本节中,我们将详细介绍PaRT,包括其整体工作流程和三个核心模块:用户画像、意图引导的查询优化器和检索增强生成。
2.1 用户画像
首先介绍用户画像模块,以增强聊天机器人对用户偏好的理解。通过引入记忆机制[20, 43],对话历史中的关键信息被总结并存储在用户画像中。此外,主动问候作为建模用户画像的有效方法。我们已经开发了一个全面的静态问题库,聊天机器人可以从中随机选择问题来发起对话。此外,基于现有用户画像的个性化问候和检索增强生成(详见第2.4节)有助于开发更全面的用户画像。如图2所示,对话以问候开始,同时用户偏好不断更新以维持实时用户画像。
2.2 意图引导的查询优化器
随着对话的进行,有效的聊天机器人应主动满足用户需求或在参与度下降时转变话题。图2(左)展示了传统聊天机器人尽管用户参与度下降,仍坚持当前话题,导致互动质量不佳。只有真正理解用户的潜在意图,聊天机器人才能推动更高质量的对话。
为了识别用户的真实意图
,我们引入了一个基于大型语言模型(LLM)的意图引导查询优化器模块。具体来说,我们将用户意图分为三种类型:自然过渡、显式检索和隐式检索。自然过渡表示聊天机器人应在提供陪伴的同时维持对话。在显式检索情况下(例如,“你对最近发布的《沙丘2》有什么看法?”),聊天机器人必须执行主动检索
以获取最新信息。然而,并非所有用户查询都明确表明需要检索。随着对话的进行,用户的互动可能表明兴趣下降或话题转变的趋势
,这意味着隐式检索意图。在这种情况下,聊天机器人必须检测到用户兴趣的减弱,并根据对话背景和用户资料生成个性化的主题过渡,以维持参与度。为了在两种情况下都提高检索效果,我们引入了查询重写
,这通过利用大型语言模型
的高级理解能力,明确了目标实体并最小化了来自不相关内容干扰。我们精心设计提示,指导大型语言模型充分考虑对话背景和用户资料,首先识别用户意图,然后完善当前查询以匹配用户对后续检索的偏好。这些完善的查询能够实现主题级控制,同时通过信息检索提高响应质量
。
2.3 检索增强生成
主动聊天场景,特别是涉及开放领域生活方式对话的场景,从整合实时信息中受益匪浅。在这些情境下,静态知识库本质上存在限制并且很快过时[23, 27],使得网络搜索对于检索增强生成(RAG)至关重要。为了充分利用这一优势,我们采用了一个传统的RAG框架[16, 18, 21],该框架分为三个阶段进行操作:检索、摘要生成以及利用网络来源的生成。在我们的实际实现中,我们使用RedNote搜索引擎进行检索,这是一个流行的生活方式分享平台,包含大量的高质量内容,能够提供跨多个主题的实时洞察,从而确保检索质量。为了保证一致的生成质量,PaRT采用针对不同主动对话场景定制的不同提示。对于问候场景,我们从用户资料中随机选择一个条目,并提示大型语言模型将核心兴趣总结为搜索查询。相比之下,对于对话场景,我们使用由我们的意图驱动查询细化器生成的查询。在问候和对话两种场景中,生成的查询都会触发检索操作。然后,大型语言模型根据查询总结前k个检索到的段落,有效地过滤掉不相关的信息
。这个总结的内容随后与上下文信息相结合,使得生成的回应既自然又富含信息。
3 实验
在本节中,我们首先介绍PaRT的实现细节和评估指标。然后基于从iPET2(一个部署在RedNote上的社交聊天机器人)派生的测试集进行全面的离线实验。最后,我们在将PaRT部署到实际生产环境后报告在线实验结果。
3.1 实现细节
对于模型训练,我们构建了一个包含11,455个样本的高质量数据集,并采用监督微调(SFT)对Qwen2系列[37]进行全参数优化。为了平衡延迟与成本之间的权衡,使用Qwen2-72B-Instruct进行对话生成,而Qwen2-7B-Instruct则用于其他组件。该模型以2048的上下文长度、5e-6的学习率和余弦衰减调度进行优化,包括0.1的预热比例。批量大小设置为每个设备2个,梯度累积执行4步以确保稳定训练。整个训练过程包含3个周期,使用24个NVIDIA A100 80GB GPU,总训练时间约为4小时。此外,对于模型推理,应用0.9的温度系数以平衡输出的创造性和确定性。
3.2 评估指标
为了全面验证PaRT的能力,我们从检索和生成两个角度对PaRT进行评估。鉴于传统机器方法在评估主观任务上的困难,我们采用了基于大型语言模型(LLM)的评估方法[31, 44],该方法已被证明与人类判断一致[5, 6]。对于每项任务,我们随机抽取50个样本,并报告LLM与人类评分之间的kappa一致性系数[26, 47]。为了评估检索性能,我们仅采用Precision@k(P@k)指标[46],因为检索数据库庞大且动态变化。我们设计提示语,并要求LLM验证检索到的段落是否满足全部三个要求:相关性、有用性和对话连贯性,分别赋予0或1的标签。此外,我们使用受[4, 29]启发的主观指标评估问候和对话场景中的生成质量,重点关注三个维度:个性化、信息性和沟通技巧。个性化指标评估响应如何适应用户的偏好,以反映个性化的相关性;信息性指标衡量响应中包含的信息丰富程度;沟通技巧指标则评估响应在促进自然且有意义的用户互动方面的连贯性、情感共鸣和参与度。为了量化这些方面,我们要求LLM为每个维度打分,分数范围从0到3,分数越高表示质量越好。
3.3 离线实验结果
3.3.1 检索性能。我们比较了基于原始用户查询和LLM重写查询的方法之间的检索性能。如表1所示,使用重写查询方法相比用户查询方法在整体检索性能上提升了31.71%。此外,表格显示随着检索到的文章数量增加,重写查询的P@k下降得更慢,这突显了我们方法的稳健性。这些实验结果支持与[17,38]类似的结论,表明基于LLM的查询重写显著提高了检索性能。为了优化信息丰富性与检索精度之间的平衡,我们将检索到的文章数量设置为5篇。
表1:离线数据集上的检索性能
Method | P@1 | P@3 | P@5 | P@10 | Avg |
---|---|---|---|---|---|
User Query | 0.5871 | 0.4428 | 0.3400 | 0.2001 | 0.3925 |
Rewritten Query | 0.7847 | 0.7361 | 0.7056 | 0.6121 | 0.7096 |
Kappa(vs. Human):0.78 | Kappa(vs. Human):0.78 | Kappa(vs. Human):0.78 | Kappa(vs. Human):0.78 | Kappa(vs. Human):0.78 | Kappa(vs. Human):0.78 |
3.3.2 生成性能。为了评估我们方法的生成质量,我们使用三种不同的指标进行全面分析,如第3.2节所示。在我们的实验中,我们比较了两种方法:直接生成和个性化生成。直接生成是传统的聊天机器人方法,立即使用大型语言模型(LLM)的回应;而个性化生成方法则基于用户个人档案生成回应,而不依赖外部信息。PaRT更进一步,同时利用用户个人档案和检索到的笔记。表2总结了详细的实验结果。结果表明,与直接生成方法相比,个性化生成提供了更令人满意的回应,这证实了用户个人档案在提升生成质量方面的重要价值,正如文献[4]中所验证的。值得注意的是,PaRT在所有评估指标上均优于其他方法,这证明了将个性化检索融入生成过程可以显著提升回应质量,为用户带来更加定制化的互动体验。
3.3.3 检索数量对PaRT性能的影响。我们进一步通过
表2:离线数据集上的生成性能 来调查检索数量k对PaRT的影响。
Method | Pers. | Info. | Coms. | Avg |
---|---|---|---|---|
Greeting | Greeting | Greeting | Greeting | Greeting |
Direct Generation | 0.9094 | 1.1353 | 1.5381 | 1.1943 |
Persona Generation | 1.2290 | 1.9334 | 2.1624 | 1.7749 |
PaRT | 1.7534 | 2.0978 8 | 2.4090 | 2.0867 |
Dialogue | Dialogue | Dialogue | Dialogue | Dialogue |
Direct Generation | 1.4554 | 1.7183 | 2.2075 | 1.7937 |
Persona Generation | 1.5684 2.1592 | 1.8722 | 2.1940 | 1.8782 |
PaRT | 2.1484 | 2.3098 | 2.2058 | |
Kappa(vs. Human) | 0.51 | 0.46 | 0.43 |
评估四种配置(k=1、3、5和10)在问候和对话场景中的表现。如表3所示,k=5在两种场景中都取得了最佳表现,而笔记过少则信息不足,笔记过多则引入降低性能的噪声。这些结果与之前文献[32]中的观察一致,即有效的RAG系统必须在检索的全面性和精确性之间仔细权衡。
表3:检索数量对PaRT的影响
Scenario | Average Performance | Average Performance | Average Performance | Average Performance |
---|---|---|---|---|
Scenario | k=1 | k=3 | k=5 | k=10 |
Greeting | 1.4706 06 | 1.5229 | 2.0867 | 1.6209 |
Dialogue | 1.7829 29 | 1.8022 | 2.2058 | 1.8646 |
3.4 在线实验结果
为了评估系统对用户参与度的影响,我们进行了在线A/B测试。我们选择平均对话时长作为主要评估指标,因为它通过测量用户在对话互动中花费的平均时间来直接反映用户参与度。为了建立基线,我们采用了采用被动对话策略的聊天机器人。实验持续了7天时间,参与者以1:1的比例均匀分配到对照组和实验组。如表4所示,与基线相比,PaRT在平均对话时长上实现了21.77%的增长。这一结果表明我们的方法有效提升了用户参与度,并促进了更深入的对话。
表4:A/B测试结果
Metric | Baseline | PaRT |
---|---|---|
Average Dialogue Duration(s) | 296.88 | 361.51(+21.77%) |
4 结论
在本文中,我们提出了一种名为PaRT的方法,该方法使社交聊天机器人具备主动对话和实时信息增强的能力。通过整合用户画像、意图引导的查询细化器和检索增强生成技术,它能够实现类似人类的对话发起和平滑的话题过渡。实验结果证实了对话质量的提升和用户参与度的增加。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈