【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习

0. 论文信息

Title: Unsupervised Human Preference Learning
Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Dilek Hakkani Tur
Comments: EMNLP 2024 Main Conference
https://arxiv.org/pdf/2410.03731
在这里插入图片描述

1. 摘要:

本文提出了一种新颖的方法,使用小型参数模型作为偏好代理,以生成指导大型预训练模型的自然语言规则,实现个性化内容的高效生成。该方法通过一个小型的本地“方向盘”模型来指导一个更大的基础模型,以产生符合个人偏好的内容,同时利用大模型的广泛知识和能力,且无需对大模型进行微调。实验结果表明,该技术在数据和计算效率方面显著优于现有的个性化方法。

2. 研究背景:

大型语言模型(LLMs)在推理、知识检索和内容生成方面展示了令人印象深刻的能力,但在适应个体用户偏好方面存在挑战。现有的个性化技术,如上下文学习和参数高效微调,难以捕捉人类偏好的复杂性,尤其是在个人数据集较小的情况下。

3. 问题与挑战:

LLMs通常在大规模、通用的数据集上进行训练,这促进了中立性,但限制了它们学习和适应个体细微差别的能力。此外,现有的个性化技术在面对有限的个人数据时,难以实现有效的个性化。

4. 如何解决:

研究者提出了一种基于偏好代理的概念的新方法。这些代理是小型的、本地可训练的语言模型,旨在学习和编码个体用户的偏好到简洁的自然语言规则中。这些代理充当小型“方向盘”,引导更大、更通用的LLMs的输出,以期望的个性化风格和内容为目标。

5. 创新点:

  • 提出了一种新的微调目标,利用提取的偏好信息而非传统的输入-输出对,促进了用户偏好的有效学习。
  • 通过偏好代理的使用,实现了显著的性能提升,尤其是在将LLMs与个体风格和偏好对齐方面。
  • 发布了三个大型、人类意图注释的偏好数据集,以促进未来个性化研究。

6. 算法模型:

该方法涉及两个关键组件:生成捕获用户偏好的自然语言规则,并使用这些规则指导一个更大的预训练语言模型。这种模块化架构允许在不进行广泛重新训练的情况下进行有效的个性化。
在这里插入图片描述
文章中提到的小型参数模型,即偏好代理(preference agents),是用来学习和编码用户个性化偏好的小型语言模型。这些模型的工作方式如下:

  1. 任务定义:偏好代理的目标是将用户意图(u)和相关的任务元数据(m)映射到自然语言偏好规则(P)。这些规则将用来引导大型预训练模型(ML)的输出,以匹配用户的个性化需求。

  2. 模型训练

    • 零样本响应:首先,让大型模型(ML)对训练数据集(D)生成零样本(zero-shot)响应。这些响应是基于模型的预训练知识,不包含任何用户特定的偏好信息。
    • 提取偏好规则:然后,利用ML的能力提取零样本输出(Yz)和真实输出(G)之间的差异。这个差异代表了需要由小型模型(MS)学习的偏好规则(P)。
    • 训练小型模型:接下来,训练小型模型(MS)来生成这些偏好规则。训练数据由输入-偏好规则对组成,MS学习将用户意图和任务元数据映射到自然语言偏好规则。
  3. 模型对齐:训练完成后的偏好代理(MA)用于将大型模型的输出与未见过的用户数据对齐。对于新的输入(x),首先使用训练有素的代理生成偏好规则(p),然后将这些规则作为额外的上下文与原始输入一起提供给大型语言模型(ML),生成考虑用户偏好的输出(ya)。

  4. 量化对齐:使用一个评估函数(Eval)在未见过的测试集(T)上评估对齐效果。对于T中的每个例子,该函数比较考虑偏好规则的输出(ya)和不考虑偏好规则的零样本输出(yz)。通过在测试集上聚合这些分数,得到一个总体的对齐分数(Score(T))。

  5. 偏好规则的生成:偏好代理通过分析零样本响应和真实响应之间的差异来生成规则,这些规则以自然语言的形式提供具体的指导,例如调整语气、长度、风格等。

这种方法的关键在于,它允许使用小型模型来有效地学习和适应个体用户的偏好,而无需对大型模型进行全面的微调。这样,个性化的过程既高效又实用,因为它不需要大量的计算资源,并且可以轻松地集成到各种应用中。

7. 实验效果:

  • 在包括电子邮件、新闻文章和产品评论在内的三个不同的数据集上评估了该方法。
  • 结果表明,偏好引导的LLMs在自动指标、GPT-4o评估和人类判断方面,显著优于微调基线和标准提示技术。
  • 在某些情况下,与现有个性化方法相比,性能提升高达80%。

在这里插入图片描述

8. 重要数据与结论:

  • 在不同的数据集和LLMs上,偏好代理显著提高了与用户偏好对齐的LLM输出。
  • 该方法在数据和计算效率方面显著优于现有方法。

9. 小结

这篇文章提出了一个创新的方法来解决个性化LLMs的挑战,这对于希望在不牺牲个性化的情况下扩展LLMs应用的研究人员和实践者来说是非常有价值的。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sp_fyf_2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值