实训中的一些多模态推荐论文分享

GaolBB

已于 2025-05-07 09:22:17 修改

阅读量672

点赞数 14

文章标签：人工智能

于 2025-04-26 15:45:00 首次发布

本文链接：https://blog.csdn.net/GaolBB/article/details/147522769

版权

在过去三周的工作中，我们围绕MicroLens、PixelRec、Amazon等多模态推荐系统数据集展开数据清洗、预处理、召回模块构建等一系列实践操作。随着对多模态数据结构和处理方式的逐步深入，我们团队开始进一步思考：如果把推荐系统中的多模态表征能力放到更强大的框架中，如当下火热的多模态大语言模型（Multimodal Large Language Models, MLLMs）中，会不会带来更加泛化且灵活的解决方案？

带着这个问题，本周我们系统阅读了四篇发表在ICLR 2024顶会上的代表性多模态LLM论文：NExT-GPT、DreamLLM、LaVIT、MoE-LLaVA，分别从“任意模态处理能力”“生成理解协同”“统一视觉语言预训练”“稀疏专家结构”等方向，展现了当前MLLM的发展趋势和关键创新。本文将逐一梳理它们的核心思想，结合我们的推荐系统实践，探讨其中对我们项目的潜在启示与借鉴价值。

一、NExT-GPT：实现“任意输入-任意输出”的多模态对齐梦想

1.1 核心观点

NExT-GPT尝试解决的，是一个几乎“终极”的多模态目标：模型能同时理解并生成文本、图像、音频、视频等任意模态的信息。它采用了模块化的架构——基于预训练LLM主体，加入不同模态的Adapter和多种解码器，再通过引入“MosIT”（模态切换指令调优）机制来实现灵活地模态互通。

更重要的是，NExT-GPT不追求完全重训整个LLM，而是仅通过调整1%的参数完成适配，显著降低了训练成本。

1.2 与项目关联

我们目前的多模态推荐系统主要以文本（如商品描述、评论）和图像（商品图）为主，而NExT-GPT展示了一种完全解耦、统一处理所有模态的方法。如果未来我们希望构建一个支持更丰富用户行为理解的系统，比如分析用户上传视频、语音等内容，那NExT-GPT所提出的“任意模态感知-任意模态生成”路线就是极具启发性的参考方向。

二、DreamLLM：理解与创作双轮驱动的多模态通才

2.1 核心观点

DreamLLM强调“理解”与“创造”的协同关系。传统的MLLM往往只强调感知理解，但忽视内容生成的能力。而DreamLLM采用了“原始多模态空间采样”方式，直接在图像-文本空间联合建模，不借助外部特征提取器，从而实现更自然的文本-图像生成。

此外，DreamLLM支持生成“交错内容”（Interleaved Document），即图文混排的自由结构内容，是向AI内容创作方向迈出的重要一步。

2.2 与项目关联

虽然我们当下的目标是推荐而非生成，但DreamLLM的理念仍然具有启发意义。推荐的本质是理解用户意图并生成反馈内容——推荐结果。而一个系统如果不仅能理解图片和文本，还能“创作”商品描述、甚至生成个性化商品封面，那么它就能更贴合用户的审美与需求。

此外，DreamLLM不使用传统视觉特征提取器，也提醒我们反思：当前我们使用的ResNet、ViT等模型是否已经过时？是否可以尝试更原始的、联动式的图文嵌入方法，提升推荐系统的表征能力？

三、LaVIT：打通图文信息壁垒的“视觉标记化”

LaVIT最大的创新点是“将图像内容标记化”，即通过视觉离散化模块，把图片转化为离散的token，然后输入语言模型处理，从而实现视觉与文本在输入层就对齐的能力。这种方式与传统将图像嵌入为高维向量不同，它强调图文“语义对等”，提升了模型对图文混合任务的适应能力此外，LaVIT是一个真正统一输入通道的模型，具备良好的多任务适应能力。

我们在项目中遇到的一个典型问题是：文本和图像信息在向量空间中差异过大，导致融合后难以产生语义一致性。而LaVIT的做法提供了一种思路：图像是否也可以“文本化”处理？例如我们是否可以引入CLIP tokenizer对商品图像进行token化处理，然后与文本token一起输入模型中？这种方法也可能提升我们在后续排序任务中的多模态融合质量。

四、MoE-LLaVA：稀疏专家机制带来的轻量化与精准性

MoE-LLaVA的创新在于引入“稀疏专家”（Mixture of Experts, MoE）结构，只在推理时激活部分专家模块。这样既能保持模型总参数量的高容量，又能控制计算成本，提升训练和推理效率。实验显示，MoE-LLaVA在使用不到LLaVA-13B一半计算资源的情况下，实现了相当甚至更优的性能，尤其在图像问答任务中表现亮眼。对于资源受限的应用场景，如在边缘设备或中小企业部署推荐系统，轻量化是关键。而MoE结构正好提供了“一种稀疏但高效”的解决方案。如果我们未来尝试部署多模态推荐系统至真实业务中，MoE策略值得进一步研究。同时，稀疏激活专家也可引申为多模态信息的“注意力路由”策略，或可用于处理图文冗余与噪声问题。

-------------------------------------------

下面是第二次多模态推荐系统相关论文的调研

# MENTOR: Multi-level Self-supervised Learning for Multimodal Recommendation| AAAI'2024
1. 论文核心内容总结

问题背景：
- 电商场景中，传统推荐系统受限于数据稀疏性（用户-物品交互数据不足）和标签稀疏性（高质量标注数据稀缺）。
- 多模态推荐（视觉、文本等）通过利用多媒体信息缓解数据稀疏性，但面临模态噪声（不同模态分布差异大）和模态对齐难题。

MENTOR解决方案：

- 多模态融合：用GCN提取模态特异性特征，融合视觉和文本模态。
-多级自监督学习：
跨模态对齐任务：通过ID嵌入引导多级对齐，保留历史交互信息。
通用特征增强任务：从图和特征层面增强鲁棒性（抗噪声、抗扰动）。
实验验证：在三个公开数据集上表现优于基线模型。

2. 与LLM电商推荐系统的关联与可借鉴点
- 共同挑战：电商场景中用户长尾物品交互少，需利用多模态信息（如商品图片、描述、评论）。LLM生成的文本特征需与视觉/ID特征对齐（例如商品标题与图片的一致性）。
通过阅读这篇论文，我认为我们的电商推荐系统可借鉴该篇论文的如下技术：
- 多模态融合框架：可参考MENTOR的GCN-based特征提取与融合方法。并用LLM生成文本特征（如商品摘要），替代传统文本编码器，增强语义理解。同时可以可借鉴多级对齐任务，避免丢失历史交互信息。通过掩码语言建模（MLM）或图扰动增强LLM特征的鲁棒性（类似MENTOR的通用特征任务）。MENTOR强调保留历史交互信息，对电商推荐至关重要。可设计类似机制，确保LLM生成的特征不与用户行为数据冲突。
3. 对项目的启发与指导
LLM可视为强文本模态编码器，与其他模态（视觉、用户行为图）结合，提升推荐解释性和准确性。MENTOR的多级对齐减少噪声，可优化LLM输出与其他模态的融合效率（例如通过注意力机制）。

因此，在数据层面，我们可以构建商品多模态数据集（文本+图像+用户行为图），利用LLM生成富文本特征（如情感分析、关键词提取）。若标注数据少，我们可采用MENTOR的自监督策略，从无标注数据中学习。
对于我们的模型，可以用LLM作为模态编码器：LLM（如GPT-3.5）编码商品描述，替代传统文本编码器，提升语义理解。同时结合用户-物品交互图（如GCN），将LLM特征与协同过滤信号融合。
评估指标可以参考MENTOR的实验设计，除准确率外，加入模态对齐度（如特征相似性）、鲁棒性（对抗噪声）等指标。

但是在计算成本上，MENTOR依赖GCN，若项目需实时推荐，需优化LLM+图模型的推理效率。而且由于模态差异，LLM生成的文本特征分布可能与视觉特征差异更大，需更精细的对齐策略（如引入适配层）。

总之，这篇MENTOR为多模态推荐提供了模块化框架，其自监督学习和模态对齐方法可直接迁移至LLM电商推荐系统。关键是通过LLM增强文本模态表达，同时借鉴MENTOR的多级对齐和特征增强，解决数据稀疏与模态噪声问题。下一步可探索LLM如何替代MENTOR中的文本编码器，并设计更适合电商场景的自监督任务（如基于用户评论的对比学习）。

# Contrastive Modality-Disentangled Learning for Multimodal Recommendation
多模态推荐利用丰富的多模态信息来学习用户偏好，引起了广泛关注。大多数工作侧重于设计强大的编码器来提取多模态特征，并简单地将学习到的特征聚合在一起进行预测。因此，它们学习模态间知识（包括模态共享知识和模态独特知识）的能力有限。事实上，学习模态共享知识使我们能够对齐跨模态数据以融合异构模态特征。当推荐任务仅涉及少量共享特征并且必要信息包含在特定模态中时，学习模态独特知识同样重要。在本文中，我们提出了对比模态解缠学习（CMDL）来克服这一关键限制。CMDL 通过实现模态解缠来精确捕获模态间知识。具体而言，CMDL 首先将初始表示解缠为模态不变表示和模态特定表示。随后，CMDL 引入了一种新颖的对比学习方式来近似 MI 上界，以实现解缠正则化。在所提出的正则化基础上，CMDL 鼓励模态不变和模态特定表示分别捕获模态共享和模态独特知识，并在统计上相互独立。从实证上讲，在基准数据集上进行了广泛的实验，证明了 CMDL 与强大的多模态推荐器相比具有卓越的性能。
CMDL的pipeline如下所示：
这个多模态推荐系统（CMDL）的算法流程如下：
   1.   构建物品-物品语义图（Construction of Item-Item Semantic Graphs）
   •   通过视觉特征提取器和文本特征提取器，分别提取商品的视觉特征（如图片）和文本特征（如描述）。
   •   根据这些特征构造视觉和文本模态的物品-物品语义图
   2.   学习解耦的多模态表示（Learning Disentangled Multimodal Representation）
   •   采用 LightGCN 处理全局交互图 G^b ，学习全局交互表示 h_r^v 和 h_r^t 。
   •   通过注意力机制进一步学习解耦的模态特定表示：
   •   视觉模态特定表示 e_r^v
   •   文本模态特定表示 e_r^t
   •   共享模态无关表示 e_r^c
   •   通过约束 h_r^v - e_r^v 、 h_r^t - e_r^t 和 h_r^t - e_r^c 来解耦模态信息。
   3.   偏好预测与损失优化（Preference Prediction & Prediction Loss）
   •   结合最终的多模态表示 e_r^m 和交互表示 h_r^n 生成用户和物品的表示 e_i 和 e_u 。
   •   采用 BPR（Bayesian Personalized Ranking）损失进行优化。
   4.   基于互信息的解耦正则化（MI-Based Disentanglement Regularization）
   •   通过互信息（MI）估计上、下界来约束解耦表示：
   •   互信息下界估计 I(h_r^v; e_r^c) 和 I(h_r^t; e_r^c) 。
   •   互信息上界估计 I(h_r^v; e_r^c) 、 I(h_r^t; e_r^c) 和 I(e_r^v; e_r^c) 。

CMDL 通过构建物品-物品语义图提取视觉和文本模态特征，并通过 LightGCN 和注意力机制学习解耦的多模态表示。同时，采用基于互信息的正则化方法提高模态解耦能力，并最终利用 BPR 损失优化推荐效果。

这篇文章提出的 CMDL（Contrastive Multimodal Disentangled Learning）主要聚焦于多模态表示的解耦学习，尤其是如何从视觉和文本模态中提取信息，同时保证模态间的信息独立性，从而提高推荐系统的表现。对于我们的基于 LLM 的多模态电商推荐系统，这篇文章有几个值得借鉴的地方。

CMDL 采用物品-物品语义图（Item-Item Semantic Graphs）来建模不同模态的信息关联，这对基于 LLM 的电商推荐系统有直接的启发。在 LLM 时代，多模态信息（如商品图片、文本描述、用户评论等）可以通过大模型的嵌入层来获得统一的表示，但如何构造高质量的多模态关系图仍是关键。你可以借鉴 CMDL 的思路，构造一个基于 LLM 生成的语义关系图，不仅包含商品间的相似度信息，还可以结合 LLM 提取的概念关联（如同类型、替代品、配套商品等），从而增强推荐系统的可解释性和泛化能力。

然后我发现，CMDL 在学习解耦的多模态表示（Disentangled Multimodal Representation Learning）方面的做法值得关注。它通过 LightGCN 进行全局交互建模，并利用注意力机制学习模态特定（视觉、文本）和模态共享（通用）表示，同时引入互信息（Mutual Information, MI）进行正则化，确保不同模态的信息不被混淆。这一思路对于基于 LLM 的推荐系统同样适用。LLM 生成的文本嵌入往往包含丰富的多模态知识，但如何区分哪些信息是文本模态特有的，哪些信息是跨模态共享的，是当前多模态推荐研究中的一个难点。因此，你可以考虑引入类似的解耦学习方法，让 LLM 生成的嵌入在不同模态间进行有针对性的分解，比如利用对比学习（Contrastive Learning）或互信息最小化来确保视觉、文本和交互特征各司其职，从而提升模型的可解释性和鲁棒性。

此外CMDL 采用基于互信息的正则化（MI-Based Disentanglement Regularization）约束模态特定和模态共享的表示分布，这一做法在 LLM 时代仍然具有价值。现代 LLM 模型（如 GPT-4、Gemini、Mistral）虽然可以直接处理多模态数据，但在多模态融合时，仍然容易出现模态信息不均衡的问题。例如，在商品推荐任务中，文本描述可能包含比图片更丰富的细节信息，导致模型对文本模态的依赖性更强，而忽略视觉模态。因此，可以借鉴 CMDL 的互信息约束策略，在 LLM 生成的多模态表示中，通过互信息上界和下界的估计，控制不同模态的独立性和互补性，从而提高模型的稳定性和泛化能力。

在优化目标方面，CMDL 采用 BPR Loss 进行优化，而在 LLM 结合推荐系统的场景下，你可以考虑将其拓展为融合对比学习、生成式学习以及排序优化的多任务损失函数。例如，可以结合基于 LLM 的生成任务（如摘要生成、问答预测），让 LLM 在理解商品信息的同时优化推荐目标。此外，可以设计用户行为模拟任务，让 LLM 预测用户可能的购买路径，从而提高推荐的精准度和用户体验。

这篇文章在多模态表示解耦、基于图结构的关系建模、互信息正则化以及优化目标设计方面提供了许多值得借鉴的思路。在 LLM 赋能的多模态推荐系统中，你可以结合这些方法，让 LLM 不仅作为特征提取工具，更作为推荐过程中的核心推理模块，提高模型的多模态理解能力和推荐效果。