基于微调大语言模型的生成式推荐系统

研究背景

  1. 研究问题:这篇文章要解决的问题是如何通过对大型语言模型(LLMs)进行对齐,使其在推荐系统中更具可控性和准确性。具体来说,现有的LLMs在遵循推荐特定指令方面存在局限性,导致生成的内容可能包含领域特定的格式错误,或者无法满足多样化的推荐指令。
  2. 研究难点:该问题的研究难点包括:如何有效地将领域知识注入LLMs中,如何设计强化学习阶段以增强LLMs的泛化能力,以及如何在减少格式错误的同时保持高水平的准确性。
  3. 相关工作:该问题的研究相关工作有:利用LLMs进行推荐系统的早期实现、基于提示工程和上下文学习的LLMs适应方法、以及最近通过微调LLMs来更好地与推荐任务对齐的研究,如P5、InstructRec和TALLRec等。

研究方法

这篇论文提出了一种新的方法,通过对LLMs进行两阶段的微调和强化学习,以提高其在推荐系统中的可控性和准确性。具体来说,

  1. 监督学习阶段(SL):首先,设计了一系列微调任务,包括项目推荐、项目搜索、类别控制和类别比例控制。这些任务旨在增强LLMs的可控性和标签增强。为了弥补用户行为历史中稀疏的标注信号,使用了传统推荐模型(如SASRec)的预测作为增强标签。

    图片

  2. 强化学习阶段(RL):在SL阶段之后,LLMs已经显著增强了遵循推荐相关指令的能力。为了进一步细化LLMs的指令遵循能力,引入了RL阶段,并设计了多种奖励信号。奖励信号包括项目级奖励和列表级奖励,分别计算如下:

  • 项目级奖励:

    图片

  • 列表级奖励:

图片

实验设计

  1. 数据集:实验使用了两个流行的数据集:Amazon Movies和Steam。这些数据集包括用户的历史交互数据和项目类别信息,有助于构建用户的控制意图。
  2. 实现细节:选择Llama-2-7b-chat作为基础模型,设置最大序列长度为1024个令牌。用户行为序列被截断以包含不超过10个项目,过长的项目标题被压缩到最多64个令牌。为了在输出中容纳完整的推荐列表,模型的最大输出长度设置为512个令牌。
  3. 训练过程:在SL阶段,使用4个A100 GPU进行训练,批量大小为1,梯度累积步长为16。在RL阶段,使用2个A100 GPU进行训练,批量大小为1,梯度累积步长为2。每个批次的指令采样时间、候选响应生成时间和模型训练时间总计约40秒,最大训练步数为3000。

结果与分析

  1. 整体性能:在所有评估指标中,微调后的模型均优于通用LLMs(如GPT-3.5和Llama2-7b),验证了微调对于领域特定任务的必要性。我们的完整模型Oursfull在推荐准确性上与教师模型SASRec相当,表明LLMs必须先掌握用户偏好,然后才能进一步评估其指令遵循能力。
  2. 类别控制:通过正负类别控制指令的评估,发现区分监督学习任务类型至关重要。Oursv2、Oursv3和Oursfull在TCP方面显示出显著的增强效果,Oursfull表现最佳。此外,HR和NDCG指标也显示出显著的提升,验证了我们方法在遵循类别控制指令方面的有效性。
  3. 类别比例控制:在类别比例控制指令的评估中,Oursfull在所有基准测试中均表现最佳,优于所有其他基线及其自身变体。
  4. 格式和总体评估:在推荐领域的格式能力评估中,Oursfull在CorrectCount指标上接近完美,在其他格式指标(如RepeatItem、NonExist和InHistory)上也表现出逐步改进。在总体语言能力评估中,Oursfull相比其基础模型Llama2-7b显示出最小的性能退化。

总体结论

这篇论文提出了一种新的方法,通过对LLMs进行两阶段的微调和强化学习,显著提高其在推荐系统中的可控性和准确性。实验结果表明,该方法在推荐精度、可控性和呈现方面均优于现有的LLMs系统,为精细化和可靠的推荐服务提供了重要的一步。未来的工作将进一步探索更复杂和多样化的指令,以进一步提高LLMs在推荐系统中的应用效果。

优点与创新

  1. 新颖的监督学习阶段:提出了一个包含多种任务的监督学习阶段,旨在通过教师推荐模型增强可控性和标签增强,以将大型语言模型(LLM)对齐为交互式推荐代理。
  2. 强化学习阶段的引入:设计了一个基于强化学习的对齐阶段,使用各种专门为可控推荐任务量身定制的奖励信号,进一步精炼LLM遵循指令的能力。
  3. 实验验证:在两个真实世界数据集(Steam和Amazon Movie)上的广泛实验表明,该方法显著提高了LLM遵循指令的能力,同时减少了格式错误。
  4. 多类指令处理:将推荐指令分为三类:隐式意图、项目级意图和列表级意图,并针对每类指令设计了相应的任务和奖励机制。
  5. 标签增强:通过传统推荐模型(如SASRec)生成的前k个推荐项来增强监督标签,以应对用户行为历史中稀疏的地面真值信号。
  6. 多种数据生成任务:设计了包括顺序推荐指令、类别控制指令、类别比例控制指令和项目搜索指令在内的多种数据生成任务,以全面训练LLM。

不足与反思

  1. 灾难性遗忘问题:论文强调了对LLM遵循推荐相关指令能力的提升可能会无意中损害其更广泛的智力能力,如何进一步减少灾难性遗忘仍是一个重大挑战。

  2. 指令多样性:在实际场景中,用户的控制意图通常包括各种复杂指令和新指令,而本文仅关注了最关键的元素(如类别控制和格式控制),更多样化和复杂的指令尚未探索。

论文:https://arxiv.org/pdf/2403.05063

github:https://github.com/microsoft/recai

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值