推荐系统进化了,使用LLM完成用户偏好的对齐

研究介绍了一种新的推荐系统方法——生成式主动任务引导(GATE),通过LLM与用户的自由形式交互来理解和推断用户偏好。GATE区别于传统提示和主动学习,能更好地处理模糊偏好并适应真实世界场景。论文通过实验评估了这种方法在预测用户决策上的有效性。
摘要由CSDN通过智能技术生成

推荐系统 --> 进化了,新的一种可能实现方式是基于LLM的生成式任务引导。

以下为论文核心精华:

生成式主动任务引导(GATE):一种学习框架,其中LLM通过与用户进行自由形式的基于语言的交互,引导和推断出用户预期的行为。

研究结果表明,基于语言模型的引导可以成为将模型与复杂的人类偏好和价值观对齐的强大工具。

5dd47c1c084c52eb824aa1e843ff691e.jpeg

21c76f9134344207e44ec63e8e6ef3b9.jpeg

生成式主动任务引导(GATE)通过互动的自由形式问题引导用户表达其偏好,然后将这些偏好用于后续的决策过程。与非互动引导方法(例如提示)不同,生成式引导能更好地探索人类偏好的细微差别。与主动学习方法不同,生成式引导可以提出更通用、自由形式的问题。图中的三个部分说明了:

(A)模糊用户偏好:用户希望将对任务执行方式的模糊偏好转化为机器学习模型的规范。这是具有挑战性的,因为用户缺乏完美的内省能力,偏好很难用语言来明确表达,规范需要预测棘手的真实世界边缘案例,并且模型可能会从提供的示例或指令中错误推断。

(B)任务引导:我们考虑了从用户那里引导这些模糊偏好的各种方法,包括非互动提示、主动学习和生成式引导(GATE)。

(C)评估:我们在一个保留的测试集上评估方法,评估语言模型预测用户真实决策的准确性。

https://arxiv.org/pdf/2310.11589.pdf

#MixCopilot

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值