MMMLP笔记--Multi-modal Multilayer Perceptron for Sequential Recommendations

最新推荐文章于 2025-05-15 14:07:28 发布

学乐乐

最新推荐文章于 2025-05-15 14:07:28 发布

阅读量2.1k

点赞数 37

文章标签：笔记

本文链接：https://blog.csdn.net/qq_52806062/article/details/135170665

版权

本文介绍了一种新型的多模态多层感知器(MMMLP)架构，用于高效处理多模式序列化推荐，通过三个模块有效融合和预测，实现在线性复杂度下提升推荐效果。实验结果证实了MMMLP在多模态信息处理中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

问题：现有的序列化推荐方法不能直接处理多模式数据，或者存在较高的计算复杂度。
解决办法：提出一种新的多模态多层感知器（MMMLP）架构，用于维护序列化推荐的多模式序列。
怎么做的： MMMLP是一个纯基于MLP的架构，由三个模块组成，分别是特征混合器层、融合混合器层和预测层，该架构在效率和效果上都具有优势，能在具有线性复杂度的情况下达到最佳性能。
实验部分：通过消融分析验证每个组件的贡献，证明每个模块的重要性。设计相容实验。
实验结果：结果表明，该模型学习的多模式表示总体上有益于其他推荐模型，强调了模型处理多模态信息的能力。

引言

para1:这段话主要讲述了，随着电子商务的快速发展，内容提供商需要捕捉用户的动态偏好，而序列化推荐系统（SRS）通过对用户历史交互记录进行建模，能较好地描述用户行为如何随时间变化。SRS在现代生活中被广泛应用，如产品推荐、点击预测和网页推荐等。
para2:这段话主要讲述了深度学习在序列化推荐模型中的应用和发展，特别是介绍了两种代表性的方法：基于循环神经网络的方法和基于自我注意力的方法。尽管循环神经网络（如LSTM和GRU）在处理序列数据方面有效，但它们在维持长期依赖和并行性方面存在局限。相比之下，基于自我注意力的方法在新兴的表现上已经超越了前者，它不受物品相对位置的限制，能捕捉到物品间的长期相关性。
para3:这段话主要讲述了两个方面：一是现有的研究工作很少涉及多模态序列化推荐，用户序列化行为的多模态特性未被充分重视；二是多模态数据在推荐系统领域具有重要价值，可以提供关于用户交互的丰富语义信息，例如物品的图像或文本描述，这对于特定颜色车辆类型的用户推荐具有重要作用。为了解决这一问题，需要从物品的不同表示中提取潜在特征。
para4:这段话主要讲述了多模态序列化推荐系统的研究和应用，强调了利用多模态特征（如交互历史和序列信息）来研究用户偏好并推荐相关物品的重要性。同时，对比了传统的只显示序列模式一部分的物品ID方法，指出多模态特征序列能提供更全面的潜在模式看法。因此，为了使用多模态特征进行序列化推荐，基于RNN和基于自我注意力的模型集成商品特征变得越来越普遍。然而，RNN不能维护长期依赖关系，而注意力的计算代价很高。
para5:这段话主要讲述了一种名为多模态多层感知器（MMMLP）的纯MLP结构，用于解决多模态信息融合和下一项预测问题。该模型由三个层次组成：特征混合层、融合混合层和预测层。在特征混合层，三个混合器模块捕捉具有线性复杂度的物品的多模态信息。融合混合层将来自三个通道的信息混合，最后的输出被传递到预测层以生成下一项推荐。通过在Movielens 100K和Movielens 1M基准数据集上进行测试，证明了该方法的性能优于现有的基本序列化推荐方法和竞争性辅助信息集成方法。此外，提出的特征混合层还可以应用于其他推荐模型，并导致显著改进。
- 本文贡献点：1.据作者所知，这是第一个处理具有线性复杂性的多模态序列推荐的方法，通过基于MLP的模型实现了与现有复杂方法相当的性能；2.我们提出了一种新颖的MMMLP框架，用于在序列推荐中融合和对齐多模式信息，有效地捕捉用户的细粒度偏好；3.我们进行了大量的实验，验证了我们所提出的方法的有效性，并进行了全面的分析来验证每个组件的有效性；4.我们提出的方法在获取多模态序列化推荐的上下文方面是一个开创性的尝试，我们的兼容性研究表明，我们提出的特征混合层可以增强其他推荐模型。

框架

问题陈述
总体架构
- 在本文中，我们提出了一个基于MLP的多模态推荐框架，即MMMLP，它可以显式地从各种通道中学习信息。它由三个层组成：特征混合器层、融合混合器层和预测层。我们的框架是灵活的，可以合并不同模式的数据，在本文中我们重点讨论图像和文本，这是除了项目序列之外最常用的模式类型。特征混合层还包括层归一化和残差连接，以增强训练稳定性。接下来，我们在融合混合器层中使用后融合方法，通过连接来自三个混合器模块的输出来融合多个通道表示。最后，基于融合后的表示，对预测层中的下一个推荐进行预测。
特征混合层
- 特征混合器层包含三个混合器模块，分别处理图像、文本和物品序列信息。首先，将多模原始数据输入到表征特征矩阵中，其中图像特征使用预训练模型进行编码，文本和物品序列设置可训练表征。混合器模块由一组相同的块组成，每个块包含两个混合操作。图像特征矩阵I的处理为例，文本特征T和物品序列S的操作相同。混合过程包括令牌混合和通道混合，分别捕获通道内和通道间的交互信息。标准架构组件如残差连接和层归一化用于稳定训练过程。对图像特征矩阵进行混合器模运算：
- 图形混合器输出：
- 文本混合器输出：
- 序列混合器输出：
融合混合层
- 我们提出了融合混合层来融合多个模态的表示。使用后融合方法将所有混合模块的输出拼接到由混合模块组成的混合器层。混合融合层的输出：
模型优化
- 预测为了进行公平的比较，我们引入了SRS中最常用的推理方法。在我们获得序列混合器、通道混合器和特征混合器的𝐿层之后，我们获得了一系列隐藏状态，其中包含每个交互的顺序、跨通道和跨特征依赖关系。ℎ𝑁表示基于之前的𝑁时间交互的用户偏好。每个候选项目𝑥𝑖的分数通过以下方式计算：
- 模型优化我们给出了我们所提出的模型的优化算法，如算法1所示。我们首先随机初始化模型f的参数(第1行)。在每个时期，我们将训练数据分成几批(第3行)。然后，我们将三个模式I，T，S中的特征矩阵送到TM，CM，并获得相应的中间表示(第4行)。基于图像混合器(第5行)、文本混合器(第6行)和序列混合器(第7行)，我们可以生成与这三个通道相对应的表示。我们融合了多模式特征，实现了基于融合混合层的(第8行)。然后用梯度更新模型参数，直到收敛(第9行)。值得注意的是，图像混合器、文本混合器和序列混合器只执行简单的矩阵乘法，从而保持了它们的线性复杂性。我们的训练过程遵循SRS中常用的范例，使用交叉熵损失：
讨论
- 与MLPMixer的关系
  - 在架构方面，MMMLP类似于MLPMixer[30]。然而，主要的区别在于MMMLP能够基于来自二维的信息（即令牌和通道）来处理和融合多个模态。相比之下，MLPMixer只能通过二维信息集成视觉信息。
- 复杂性分析
  - 时间复杂度
  - 空间复杂度

实验

数据集
评估设置
- 指标 MRR NDCG
- 基线
实现细节此MMMLP实施和所有基线都基于RecBole[38]库，这是一个开源推荐系统库，使我们能够在公平的环境中测试和比较所有方法，并允许轻松复制我们的结果。我们在原论文的基础上对超参数进行了调整。采用了ADAM优化器[16]和提前停止策略，当原始论文没有提供详细的超参数时，我们对超参数的选择进行交叉验证。
总体性能我们将MMMLP与有代表性的基线进行比较。比较结果总结如表2，其中包括FPMC、BPR、GRU4Rec、SASRec、MLPMixer的模型只考虑物品嵌入，而GRU4RecF+、FDSA+和SASRecF+等模型也涉及多模态信息。
参数分析为了研究RQ2，在这一部分中，我们分析了ML-100K和ML-1M上MMMLP的参数，包括图像混合器层深度和文本混合器层深度。表3显示了层深和表征大小对MMMLP和MLPMixer的影响。
- 图形混合器层深
- 文本混合器层深
消融研究为了研究RQ3，我们在ML-100K上进行了消融研究。如前所述，在所有指标上，MMMLP在两个数据集上都比MLPMixer获得了更好的性能，它们的体系结构之间唯一的区别是特征混合器。在这里，我们通过回答两个重要的问题来调查对特征混合器的需求-Q1：当用通用的特征提取器替换我们的混合器模块时，我们的模型能否保持令人满意的性能？问题2：在我们建议的模型中，每个模块的贡献是什么？为了回答这些问题，我们设计了以下MMMLP和MLPMixer的替代方案：
兼容性研究为了回答RQ4，我们对MMMLP的特征混合器模块在ML-100K上的兼容性进行了实验分析。特别是，我们的目标是研究我们提出的(I)文本混合器(ModelT)、(Ii)图像混合器(ModelI)和(Iii)文本和图像混合器(Model_TI)在其他多模态序列化推荐模型中是否能够提高它们的性能。

结论

本文提出了一种基于MLP的多模态序列化推荐体系结构MMMLP。具体地说，我们设计了一个可以同时提取图像、文本和物品序列信息的独特的特征混合层，一个用于融合这些表示的融合混合层，以及一个用于生成推荐的预测层。与其他方法相比，MMMLP在保持线性计算复杂度的同时，具有更好的提取和融合多模式信息的能力。在两个基准数据集上的大量实验表明，MMMLP的性能始终优于其他基准方法。MMMLP作为多模态序列化推荐的一种开创性方法，已经被证明在组合多通道信息方面是非常有效的。此外，我们还提供了兼容性分析，以验证我们提出的机制可以增强其他使用多模式数据捕获的方法。