山大项目实训–多模态推荐系统 2024-2025 相关文献调研
MENTOR: Multi-level Self-supervised Learning for Multimodal Recommendation| AAAI’2024
Contrastive Modality-Disentangled Learning for Multimodal Recommendation| TOIS’2025
GUME: Graphs and User Modalities Enhancement for Long-Tail Multimodal Recommendation. CIKM 2024: 1400-1409
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond. ICLR 2024
Improving Multi-modal Recommender Systems by Denoising and Aligning Multi-modal Content and User Feedback. KDD 2024: 3645-3656
Modality-Balanced Learning for Multimedia Recommendation. ACM Multimedia 2024: 7551-7560
A Multi-modal Modeling Framework for Cold-start Short-video Recommendation. RecSys 2024: 391-400
A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation. RecSys 2024: 518-527
MONET: Modality-Embracing Graph Convolutional Network and Target-Aware Attention for Multimedia Recommendation. WSDM 2024: 332-340
Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation. CoRR abs/2407.05420 (2024)
Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation. CoRR abs/2412.14978 (2024)
Boosting Multimedia Recommendation via Separate Generic and Unique Awareness. CoRR abs/2406.08270 (2024)
Who To Align With: Feedback-Oriented Multi-Modal Alignment in Recommendation Systems SIGIR 2024
Dataset and Models for Item Recommendation Using Multi-Modal User Interactions. SIGIR 2024: 709-718
Multi-modal Generative Models in Recommendation System. CoRR abs/2409.10993 (2024)
Generating Negative Samples for Multi-Modal Recommendation
Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation
Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLPs
CADMR: Cross-Attention and Disentangled Learning for Multimodal Recommender Systems
Multi-modal clothing recommendation model based on large model and VAE enhancement
A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation
Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion
Multi-modal Food Recommendation using Clustering and Self-supervised Learning
An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders
MENTOR: Multi-level Self-supervised Learning for Multimodal Recommendation| AAAI’2024
使用ID Embedding作为引导信息,提升模态对齐效果,具体就是要求多模态信息和ID信息进行分布的对齐
Contrastive Modality-Disentangled Learning for Multimodal Recommendation | TOIS 2025
使用NIPS 2023 FactorCL提出的损失函数,对模态表征进行解耦学习
Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLP
主要关注模态内关系学习,传统方法用语义相似度构建Item Graph,但这样会导致Over Smoothing,Item和Item之间缺乏区分度,
Modality-Balanced Learning for Multimedia Recommendation | MM 2024 Oral
Motivation
Late-Fusion的方法,先分别建模每种模态的信息,然后再最终的阶段进行信息融合(如concat,weighted sum),但导致潜在相关性无法充分挖掘,信息权重难以动态调整
Early-Fusion的方法,在GNN中自适应地蒸馏跨模态信息,让多模态信息的融合更加细粒度,但是会出现信息不平衡的问题,例如文本模态可能语义信息更丰富,图像的信息更少,并且由于不同模态的信息分布不同,训练的时候,某些模态的优化不足
这篇工作提出用知识蒸馏提升弱模态的优化效果,用反事实推理,自动调整不同模态的损失权重,让所有模态都得到充分的优化,
Method
用单模态教室模型来指导多模态学生模型,通过蒸馏损失,来缩小单模态和多模态模型之间的差距
1. 相关工作 (Related Work)
在本文中,作者首先回顾了多模态表示学习领域的相关工作,并将其分为以下几类:
1.1 变分自编码器(VAE)和生成对抗网络(GAN)
早期的多模态表示学习工作主要集中在**变分自编码器(VAE)和生成对抗网络(GAN)**上。这些方法的目标是通过生成模型来分离数据中的潜在变量(latent factors),从而实现对多模态数据的解耦表示。例如:
- VAE:通过最大化变分下界来学习数据的潜在表示,试图分离模态共享信息和模态特定信息。
- GAN:通过对抗训练生成与真实数据分布相似的样本,同时尝试解耦模态间的共享和特定信息。
缺点:
- 解耦不彻底:这些方法通常假设模态间的共享信息和特定信息可以完全分离,但在实际应用中,这两种信息往往是深度交织的,导致解耦效果不理想。
- 缺乏理论保证:VAE和GAN方法通常缺乏对解耦表示最优性的严格理论分析,尤其是在多模态数据中,共享信息和特定信息的分离没有明确的理论支持。
1.2 自监督学习方法
近年来,自监督学习方法在多模态表示学习中得到了广泛应用。这些方法通过设计预训练任务(如对比学习、重构任务等)来捕捉模态间的共享信息和模态特定信息。例如:
- 对比学习:通过最大化不同模态间的互信息来学习共享表示,同时通过对比损失来分离模态特定信息。
- 重构任务:通过重构输入数据来学习模态特定信息,同时通过跨模态重构来捕捉共享信息。
缺点:
- 模态间不对齐问题:由于不同模态的表示形式和信息内容存在差异(即“模态鸿沟”),自监督学习方法在处理跨模态对齐时往往表现不佳,导致共享信息的捕捉不准确。
- 缺乏对MNIC的考虑:现有方法通常假设**最小必要信息(Minimum Necessary Information, MNI)**是可达到的,但在许多实际应用中,MNI往往是不可达到的,导致解耦表示的质量下降。
1.3 信息论方法
一些研究尝试从信息论的角度来建模多模态表示学习,将模态特定信息建模为共享信息的补集。例如:
- 顺序学习:先学习共享信息,再学习模态特定信息。
- 联合学习:同时学习共享信息和模态特定信息。
缺点:
- 缺乏理论保证:这些方法虽然从信息论角度出发,但缺乏对解耦表示最优性的严格理论分析,尤其是在MNI不可达到的情况下。
- 解耦效果有限:由于共享信息和模态特定信息在实际应用中往往是深度交织的,现有方法难以有效分离这两种信息。
2. 本文的动机(Motivation)与问题建模
2.1 动机
本文的动机在于解决多模态表示学习中的一个核心问题:如何有效地分离模态间的共享信息和模态特定信息。现有的方法在处理这一问题时存在以下局限性:
- 模态鸿沟:不同模态的表示形式和信息内容存在差异,导致模态间的不对齐问题。
- MNI不可达到:在许多实际应用中,最小必要信息(MNI)是不可达到的,导致现有方法在解耦表示时表现不佳。
为了解决这些问题,本文提出了一种新的自监督学习方法——DISENTANGLEDSSL,旨在通过信息论框架来学习解耦的多模态表示,特别是在MNI不可达到的情况下。
2.2 问题建模
本文的问题建模基于信息论,具体来说,作者提出了以下目标:
- 共享信息的捕捉:通过最大化模态间的互信息来捕捉共享信息。
- 模态特定信息的分离:通过设计特定的损失函数来分离模态特定信息,确保其与共享信息不重叠。
- MNI不可达到情况下的解耦:在MNI不可达到的情况下,提出一种逐步优化的策略,确保解耦表示的最优性。
具体来说,本文的建模过程包括以下几个步骤:
- 定义解耦表示:将多模态数据的表示分为共享信息和模态特定信息两部分。
- 设计优化目标:通过最大化变分下界来优化共享信息和模态特定信息的分离。
- 理论分析:提出一套理论框架,分析在MNI不可达到的情况下,解耦表示的最优性,并证明本文提出的方法能够达到最优解耦。
2.3 深入浅出的解释
用一个简单的例子来解释本文的动机和问题建模:假设我们有两个模态,一个是图像(视觉模态),另一个是文本(语言模态)。图像和文本都包含关于某个物体的信息,但图像可能包含更多的细节(如颜色、形状),而文本可能包含更多的语义信息(如物体的名称、功能)。现有的方法试图将这两种模态的信息完全分离,但在实际应用中,图像和文本的信息往往是交织在一起的(例如,图像中的颜色和文本中的语义可能有某种关联),导致解耦效果不佳。
本文提出的方法通过信息论框架,设计了一种逐步优化的策略,确保即使在信息深度交织的情况下,也能有效地分离共享信息(如物体的类别)和模态特定信息(如图像的颜色和文本的语义)。此外,本文还提供了理论分析,证明在MNI不可达到的情况下,该方法仍然能够达到最优解耦。
总结
本文的核心贡献在于提出了一种新的自监督学习方法(DISENTANGLEDSSL),通过信息论框架有效地分离多模态数据中的共享信息和模态特定信息,特别是在MNI不可达到的情况下。本文不仅提供了理论保证,还通过大量实验验证了该方法在多种多模态任务中的优越性。