选择性提示微调:打造更个性化的 LLM 对话体验

摘要:在对话式 AI 中,利用人物设定和上下文理解来实现对话个性化至关重要。尽管大型语言模型 (LLM) 在响应连贯性方面有所改进,但有效的人物设定集成仍然是一个挑战。本文首先研究了两种常见的 LLM 个性化方法:文本提示和直接微调。我们观察到,文本提示通常难以生成与数据集中真实情况相似的响应,而直接微调往往会产生重复或过于通用的回复。为了缓解这些问题,我们提出了选择性提示微调 (SPT),它以选择性的方式对 LLM 进行软提示,以实现个性化对话。具体而言,SPT 初始化一组软提示,并使用可训练的密集检索器根据不同的输入上下文自适应地为 LLM 选择合适的软提示,其中提示检索器通过 LLM 的反馈动态更新。此外,我们还提出了上下文-提示对比学习和提示融合学习,以鼓励 SPT 增强个性化对话的多样性。在 CONVAI2 数据集上的实验表明,SPT 将响应多样性显著提高了 90%,同时还改进了其他关键性能指标。这些结果突出了 SPT 在促进引人入胜和个性化的对话生成方面的有效性。SPT 模型代码已公开发布,以供进一步探索。

1. 引言

对话系统中的个性化通过创建连贯且定制化的体验来增强用户交互。它涉及根据个人偏好、背景和实时上下文调整对话,确保每次对话都让人感觉与个人相关。这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值