2024‘微软提出RecExplainer: 利用LLM搭建可解释性推荐系统

小马不会过河

于 2024-11-11 20:34:43 发布

阅读量1k

点赞数 15

文章标签：人工智能金融大数据 prompt 语言模型

本文链接：https://blog.csdn.net/m0_59163425/article/details/143694780

版权

Introduction

推荐系统通过理解用户的偏好和意图，为合适的用户推荐感兴趣的信息。模型的可解释性是构建可靠且值得信赖的推荐系统的关键。我们探讨了利用大语言模型（LLMs）作为推荐系统解释Agent模型的潜力，并提出了行为对齐、意图对齐和混合对齐三种方法。实验结果表明，大型语言模型（LLMs）可以有效解释推荐系统的行为。

Methodologies

Problem Formulation

在推荐系统中，用户行为序列表示为：，其中表示用户在过去互动过的内容。推荐系统为用户喜欢的内容分配更高分数。

在工业推荐系统中，双塔模型被广泛利用，用户和内容分别编码为embedding：，，偏好得分由embedding相似性决定。给定训练好的推荐系统，目标是微调语言模型以解释推荐系统的决策。接下来我们将详细说明如何调整语言模型为推荐系统解释器（RecExplainer），包括行为对齐（RecExplainer-B）、意图对齐（RecExplainer-I）和混合对齐（RecExplainer-H）。

Behavior Alignment

在本方法中，我们微调语言模型使其预测行为与推荐系统的预测行为一致。如图所示。

微调任务包括：

「任务1」：下一个内容召回。给定用户历史中的内容标题，此任务教会语言模型了解目标模型的推荐。与传统任务的区别在于，任务1的标签基于目标模型的预测而非真实标签，且输入和输出使用文本标题而非内容ID。

「任务2」：内容排序。给定用户历史中的内容标题和候选内容列表，此任务教会语言模型排序以反映的顺序。

「任务3」：兴趣分类。给定用户历史中的内容标题和候选内容，语言模型生成二分类标签，反映用户是否喜欢内容，基于的预测。任务3补充任务2，使模型理解内容的情感和偏好。

「任务4」：内容区分。给定内容标题，让语言模型描述内容，包括标签、描述和相关内容，以增强模型对内容的理解。

「任务5」：ShareGPT微调。引入公开数据集ShareGPT，包含用户与ChatGPT的对话，以缓解灾难性遗忘。微调后，语言模型被提示生成模型解释，例如，给定提示 ‘[一些系统提示] 给定一个用户的历史：内容标题，内容标题，…，你会向用户推荐内容 xx 并为什么？’，语言模型可以模仿推荐系统的执行逻辑并生成一个有根据且连贯的解释，展示其对推荐过程和用户偏好的理解。

Intention Alignment

最近，跨模态训练方法展示了显著的成功，使LLMs能够理解多模态内容。例如，视觉-语言模型（VLM）将文本和图像视为两种不同的模态。通过使从文本和图像中获得的感知相匹配，生成的LLM能够有效地理解图像的内容。因此，通过利用LLM固有的推理能力，它能够为图像提供语言解释，例如回答问题，“解释为什么这张照片很有趣”。

基于这些见解，我们将生成的用户和内容embedding视为一种独特的模态。这种数据模态能够捕捉内容的特征和用户偏好的特性。因此，我们旨在使LLM的感知与来自用户和内容embedding的感知相匹配。我们称这种方法为“意图对齐”，其背后的假设是，如果LLM能够理解目标模型的神经元同时保留其多步推理能力，那么它有可能阐明目标模型的决策逻辑。如图所示。

为了在LLM和的embedding之间建立有效的连接，我们通过将任务1至4中的查询提示中的内容名称替换为相应的embedding来修改训练数据。例如，任务1的提示变为[一些系统提示]给定一个具有历史记录的用户：[用户embedding向量]，生成下一个最有可能的内容标题。这迫使LLM基于用户和内容embedding生成准确的响应。

具体而言，对于任务1、2和3，我们将用户历史中的内容标题序列替换为一个特殊标记**「user」**，并将其映射到单个投影用户embedding：

投影操作旨在将由生成的原始用户embedding（例如，维度为32）扩展到与LLM的标记embedding长度相匹配（例如，维度为4096）。对于任务2、3和4，我们将候选内容标题替换为一个特殊标记**「item」**，并使用类似但具有新一组参数的投影映射到投影内容embedding。

除了任务1至5之外，我们还设计了一个辅助任务，以增强用户embedding与用户真实历史之间的信息保真度：

「任务6」：历史重建。给定一个用户embedding，此任务恢复用户历史中的内容标题或用户历史的偏好摘要。我们利用GPT-4生成每个用户的偏好摘要，基于用户历史标题提前生成。

Hybrid Alignment

意图对齐方法可能过于严格，因为它依赖于用户/物品嵌入。在训练模型时，信息损失是不可避免的，因此很难完全识别用户历史物品。为了解决这个问题，我们引入了“混合对齐”，结合了之前的方法。对于涉及用户历史或物品选项的任务，混合对齐包括行为和意图对齐，将用户历史/物品选项添加到查询提示中。因此，一个提示可能是：“[系统提示] 给定一个具有历史记录的用户：[用户嵌入]，物品标题，…，生成下一个可能的物品标题。”

Experiments

Datasets

我们将在三个公开数据集上评估模型：亚马逊平台发布的视频游戏和电影及电视数据集、Steam。

具体任务数据生成如下：对于下一个物品召回任务，我们将目标推荐系统的 top-1 预测作为真实值；对于排序任务，我们从整个物品集中为每个样本采样五个物品，并使用目标模型生成的排序作为真实值；对于兴趣分类任务，我们将和阈值分别设置为前20%和后50%，为每个用户采样一个正样本和一个负样本。

Performance w.r.t. Alignment

为了研究训练后的LLM的对齐效果，我们在四个推荐相关的任务上评估模型的性能，结果见表。

RecExplainer-H可以达到与强大的SASRec相当的性能，并在召回和分类任务中经常表现更好，表明对齐训练有效。未对齐的vicuna-7b表现不佳，强调对齐的必要性。gpt4-ICL表现优于vicuna-7B-ICL但远低于RecExplainer-H。RecExplainer-B表现最差，表明模仿目标模型的推荐行为不是最佳解决方案。RecExplainer-I和RecExplainer-H的性能优于RecExplainer-B，表明神经元和文本信号可以互补，共同增强LLM对目标模型的理解。综上，对齐训练显著增强了LLM对目标模型的预测能力，使其适合后续的推荐解释任务。

Performance w.r.t. Explanation

评价结果来自GPT-4和人类专家分别显示在表和图中。RecExplainer-H 在所有三个数据集上得分最高，表明其能良好模拟目标模型逻辑。RecExplainer-B 排名第二，说明行为模仿有助于理解目标模型。

对于未对齐的语言模型，如Vicuna-7B和ChatGPT，它们能生成合理解释，但不清楚目标模型的预测模式，解释不够清晰，得分较低。

RecExplainer-I得分最低，分析发现其生成的解释存在幻觉，表明直接从神经元信号重构文本可能不足。这也反映在历史重建任务的较低指标上。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述