CIKM23-多行为推荐|基于并行知识增强的多行为推荐框架

Cyzz的学习笔记

已于 2025-03-12 20:03:13 修改

阅读量1k

点赞数 15

分类专栏：多行为推荐文章标签：人工智能推荐算法论文阅读

于 2025-03-12 20:02:54 首次发布

本文链接：https://blog.csdn.net/cyzz523/article/details/146203887

版权

多行为推荐专栏收录该内容

7 篇文章

订阅专栏

论文来源：CIKM 2023

论文链接：[2308.04807] Parallel Knowledge Enhancement based Framework for Multi-behavior Recommendation

代码链接：https://github.com/MC-CV/PKEF.

1 动机

现有的多行为推荐框架通常包括融合和预测两个步骤，在融合阶段，使用神经网络建模用户不同行为之间的层次相关性，在预测阶段，利用多任务学习进行联合优化，然而:

1:数据不平衡问题：由于行为数据分布的不均衡（如“浏览”行为的交互量远大于“购买”行为），导致学习到的行为关系偏向高频行为，影响低频行为（如购买）的预测效果,如下图所示：

在级联行为建模中，这种不平衡问题进一步加剧。如下图所示，在级联方法中，与下游行为相比，上游行为具有更丰富的交互信息。因此，在行为传播过程中，学习到的关系以上游行为为主，导致模型学习到的关系偏向上游行为，干扰了下游行为预测。

2：负迁移问题：当训练多个任务时，某些任务的性能可能会受到其他任务的负面影响或干扰，导致性能下降。在多任务学习中，尽管耦合输入可以共享来自不同行为的信息，但它们也可能引入潜在的梯度冲突问题。

2 贡献

首次在多行为推荐中系统性研究数据不平衡问题和负迁移问题，并提出 PKEF 框架。PKEF 由 并行知识融合（PKF） 和 投影解耦多专家网络（PME） 组成

1：PKF结合了级联和并行范式，利用并行知识自适应地增强不同行为的表征，同时学习分层关联信息来纠正不平衡行为交互造成的信息偏差。

2：PME将不同的行为视为独立的任务，为每个行为生成相应的专家信息，并使用可学习的权重来聚集来自不同行为的专家信息。不同行为的聚合可能会在特定行为任务的学习过程中引入噪声，通过投影机制在专家信息聚合时消除无用信息，减少负迁移问题。先将其他行为的专家信息分解为“共享部分”和“独特部分”，仅使用共享部分进行行为信息的聚合，防止负迁移影响模型学习。

3 多行为推荐中的梯度冲突问题

3.2.1 梯度冲突

现有的 MTL 方法通常采用耦合输入，即将不同行为的表示直接加权求和：

K 表示行为数量，这样的耦合表示作为输入，会导致梯度冲突，所有行为的梯度更新方向可能相互干扰，影响模型学习。MTL 优化目标是最小化所有行为的损失函数：

对输入 $(e^*_u, e^*_v)$ 求梯度，梯度的求和意味着所有行为的梯度都会作用在同一个向量 $(e^*_u, e^*_v)$ 上，导致梯度冲突问题。

3.2.2 投影解耦专家网络

基于投影的解耦策略为每种行为单独生成专家信息，而不是所有行为共享同一个特征表示：

$e_{UV}^{K}$ 是第k种行为的用户-物品交互表示， $g^k_{\text{exp}}$ 是行为 k 的专家门控的权重，由一个全连接层FC计算。此外，在聚合来自不同专家的信息的同时，门控机制同时引入来自其他专家的负面信息。因此，需要从其他专家那里提取对行为𝑘预测有用的信息。

$e_{sha}^{K',K}$ 是行为 k′对行为 k贡献的共享信息部分, $a^{K',K}$ 是投影系数，控制了行为 k′ 对行为 k的影响强度，避免了梯度冲突：，使用投影机制后，每种行为的梯度仅影响自己：

每个行为的梯度更新仅针对自身输入 $(e^t_u \circ e^t_v)$ ，不受其他行为梯度的干扰，避免了负迁移问题。

4 模型

多行为推荐框架(PKEF)由两部分组成：(1)并行知识融合(PKF)；(2)投影解缠多专家网络(PME)。

4.1 嵌入层

将用户和物品 ID 映射到低维向量空间，采用Embedding Lookup从嵌入矩阵中查找用户和物品的向量表示：

4.2 并行知识融合

在多行为推荐中，用户的交互数据通常遵循级联行为模式，浏览（View） → 加购物车（Cart） → 购买（Buy），但是由于数据高度不平衡（例如“浏览”远远多于“购买”），模型可能会过度依赖高频行为（如浏览）并影响低频行为（如购买）的预测。并行知识融合将级联+ 并行相结合，通过并行学习增强不同行为的表征，避免某个行为（特别是高频行为）主导其他行为的学习。

4.2.1 级联相关学习

级联相关学习来捕捉行为之间的层次依赖关系，将多个行为 k的交互矩阵转换成邻接矩阵

在每个行为𝑘中，应用消息传递来捕获高阶交互信息。利用LightGCN作为GCN聚合器来聚合每一层𝑙上的信息：，并采用级联范式来学习不同行为的层次关联信息：，其中，应用残差连接来组合上游行为表示的第一层和最后一层，作为下游行为的输入。

4.2.2 并行交互增强

并行学习独立建模每个行为的表示，在每一层单独计算行为的表示，再通过投影机制进行融合，还是使用LightGCN作为GCN聚合器来聚合每一层𝑙上的信息，提出了两种方式来融合级联和并行信息。

投影增强知识融合：在每一层上，将并行表示投影到级联表示上，计算并行和级联表示的投影，得到 $p^{k, l}_{col}$ ，然后加到级联表示上。

$e_{par}^{K,l},e_{cas}^{K,l}$ 分别是并行流和级联流的表示。

Vanilla 知识融合:先计算行为权重，再结合多个信息（级联表示、并行表示、差值、逐元素乘积）进行加权融合

最终，每个行为的表示作为后续预测模型（PME）的输入，计算如下：

4.3 投影解耦多专家网络

现有 MTL 方法在多个行为间共享特征，但这可能导致梯度冲突和负迁移（不同任务的学习目标相互干扰，降低效果）。投影解耦多专家网络为每个行为独立生成专家信息，并在聚合时利用投影机制，消除无关信息，提高预测准确性。

首先为每个行为单独生成专家信息：，在传统MTL 方法中，这些专家信息会被直接加权聚合，为了缓解来自其他特定行为专家的负面信息传递，改进了门控机制，引入了表征投影机制。以行为𝑘为例：

采用门控机制选择性地聚合专家信息：

gk是行为 k的门控权重，控制不同行为的专家信息对当前行为的影响。然后使用投影分解后的共享信息进行专家信息聚合，最后，计算目标行为的预测分数。

4.4 联合优化

并行损失：优化并行流部分，使得每个行为的并行表示能够有效建模用户的兴趣：

级联损失：优化级联部分，使得行为层次关系（如浏览 → 购物车 → 购买）能够更好地被学习：

独特损失：优化去除无关信息后的独特信息表示，确保去掉的信息仍然能用于其他行为的学习：

5 实验部分

不同行为关联下的案例研究：通过实验验证了模型是否能够缓解潜在的梯度冲突。根据所有行为之间的平均皮尔逊相关性将测试用户分为五个用户组，并从每个用户组中选择子集。在贝贝和淘宝数据集上的实验结果如下图所示。在所有用户组中，PME的性能一致优于所有其他MTL方法，进一步证明了PME在MTL上的优越性。此外，随着皮尔逊相关性的增加，PME的性能比其他MTL方法增长得更快，而其他MTL方法甚至出现了波动和下降。一个可能的原因是当知识在不同的任务之间转移时，潜在的梯度冲突导致了负迁移。