实训中的一些多模态推荐论文分享

在过去三周的工作中,我们围绕MicroLens、PixelRec、Amazon等多模态推荐系统数据集展开数据清洗、预处理、召回模块构建等一系列实践操作。随着对多模态数据结构和处理方式的逐步深入,我们团队开始进一步思考:如果把推荐系统中的多模态表征能力放到更强大的框架中,如当下火热的多模态大语言模型(Multimodal Large Language Models, MLLMs)中,会不会带来更加泛化且灵活的解决方案?

带着这个问题,本周我们系统阅读了四篇发表在ICLR 2024顶会上的代表性多模态LLM论文:NExT-GPT、DreamLLM、LaVIT、MoE-LLaVA,分别从“任意模态处理能力”“生成理解协同”“统一视觉语言预训练”“稀疏专家结构”等方向,展现了当前MLLM的发展趋势和关键创新。本文将逐一梳理它们的核心思想,结合我们的推荐系统实践,探讨其中对我们项目的潜在启示与借鉴价值。

一、NExT-GPT:实现“任意输入-任意输出”的多模态对齐梦想

1.1 核心观点

NExT-GPT尝试解决的,是一个几乎“终极”的多模态目标:模型能同时理解并生成文本、图像、音频、视频等任意模态的信息。它采用了模块化的架构——基于预训练LLM主体,加入不同模态的Adapter和多种解码器,再通过引入“MosIT”(模态切换指令调优)机制来实现灵活地模态互通。

更重要的是,NExT-GPT不追求完全重训整个LLM,而是仅通过调整1%的参数完成适配,显著降低了训练成本。

1.2 与项目关联

我们目前的多模态推荐系统主要以文本(如商品描述、评论)和图像(商品图)为主,而NExT-GPT展示了一种完全解耦、统一处理所有模态的方法。如果未来我们希望构建一个支持更丰富用户行为理解的系统,比如分析用户上传视频、语音等内容,那NExT-GPT所提出的“任意模态感知-任意模态生成”路线就是极具启发性的参考方向。

二、DreamLLM:理解与创作双轮驱动的多模态通才

2.1 核心观点

DreamLLM强调“理解”与“创造”的协同关系。传统的MLLM往往只强调感知理解,但忽视内容生成的能力。而DreamLLM采用了“原始多模态空间采样”方式,直接在图像-文本空间联合建模,不借助外部特征提取器,从而实现更自然的文本-图像生成。

此外,DreamLLM支持生成“交错内容”(Interleaved Document),即图文混排的自由结构内容,是向AI内容创作方向迈出的重要一步。

2.2 与项目关联

虽然我们当下的目标是推荐而非生成,但DreamLLM的理念仍然具有启发意义。推荐的本质是理解用户意图并生成反馈内容——推荐结果。而一个系统如果不仅能理解图片和文本,还能“创作”商品描述、甚至生成个性化商品封面,那么它就能更贴合用户的审美与需求。

此外,DreamLLM不使用传统视觉特征提取器,也提醒我们反思:当前我们使用的ResNet、ViT等模型是否已经过时?是否可以尝试更原始的、联动式的图文嵌入方法,提升推荐系统的表征能力?

三、LaVIT:打通图文信息壁垒的“视觉标记化”

LaVIT最大的创新点是“将图像内容标记化”,即通过视觉离散化模块,把图片转化为离散的token,然后输入语言模型处理,从而实现视觉与文本在输入层就对齐的能力。这种方式与传统将图像嵌入为高维向量不同,它强调图文“语义对等”,提升了模型对图文混合任务的适应能力此外,LaVIT是一个真正统一输入通道的模型,具备良好的多任务适应能力。

我们在项目中遇到的一个典型问题是:文本和图像信息在向量空间中差异过大,导致融合后难以产生语义一致性。而LaVIT的做法提供了一种思路:图像是否也可以“文本化”处理?例如我们是否可以引入CLIP tokenizer对商品图像进行token化处理,然后与文本token一起输入模型中?这种方法也可能提升我们在后续排序任务中的多模态融合质量。

四、MoE-LLaVA:稀疏专家机制带来的轻量化与精准性

MoE-LLaVA的创新在于引入“稀疏专家”(Mixture of Experts, MoE)结构,只在推理时激活部分专家模块。这样既能保持模型总参数量的高容量,又能控制计算成本,提升训练和推理效率。实验显示,MoE-LLaVA在使用不到LLaVA-13B一半计算资源的情况下,实现了相当甚至更优的性能,尤其在图像问答任务中表现亮眼。对于资源受限的应用场景,如在边缘设备或中小企业部署推荐系统,轻量化是关键。而MoE结构正好提供了“一种稀疏但高效”的解决方案。如果我们未来尝试部署多模态推荐系统至真实业务中,MoE策略值得进一步研究。同时,稀疏激活专家也可引申为多模态信息的“注意力路由”策略,或可用于处理图文冗余与噪声问题。

-------------------------------------------

下面是第二次多模态推荐系统相关论文的调研

# MENTOR: Multi-level Self-supervised Learning for Multimodal Recommendation| AAAI'2024
1. 论文核心内容总结

问题背景:
- 电商场景中,传统推荐系统受限于数据稀疏性(用户-物品交互数据不足)和标签稀疏性(高质量标注数据稀缺)。
- 多模态推荐(视觉、文本等)通过利用多媒体信息缓解数据稀疏性,但面临模态噪声(不同模态分布差异大)和模态对齐难题。

MENTOR解决方案:

- 多模态融合:用GCN提取模态特异性特征,融合视觉和文本模态。
-多级自监督学习:
跨模态对齐任务:通过ID嵌入引导多级对齐,保留历史交互信息。
通用特征增强任务:从图和特征层面增强鲁棒性(抗噪声、抗扰动)。
实验验证:在三个公开数据集上表现优于基线模型。

2. 与LLM电商推荐系统的关联与可借鉴点
- 共同挑战:电商场景中用户长尾物品交互少,需利用多模态信息(如商品图片、描述、评论)。LLM生成的文本特征需与视觉/ID特征对齐(例如商品标题与图片的一致性)。
通过阅读这篇论文,我认为我们的电商推荐系统可借鉴该篇论文的如下技术:  
- 多模态融合框架:可参考MENTOR的GCN-based特征提取与融合方法。并用LLM生成文本特征(如商品摘要),替代传统文本编码器,增强语义理解。同时可以可借鉴多级对齐任务,避免丢失历史交互信息。通过掩码语言建模(MLM)或图扰动增强LLM特征的鲁棒性(类似MENTOR的通用特征任务)。MENTOR强调保留历史交互信息,对电商推荐至关重要。可设计类似机制,确保LLM生成的特征不与用户行为数据冲突。
3. 对项目的启发与指导
LLM可视为强文本模态编码器,与其他模态(视觉、用户行为图)结合,提升推荐解释性和准确性。MENTOR的多级对齐减少噪声,可优化LLM输出与其他模态的融合效率(例如通过注意力机制)。

因此,在数据层面,我们可以构建商品多模态数据集(文本+图像+用户行为图),利用LLM生成富文本特征(如情感分析、关键词提取)。若标注数据少,我们可采用MENTOR的自监督策略,从无标注数据中学习。
对于我们的模型,可以用LLM作为模态编码器:LLM(如GPT-3.5)编码商品描述,替代传统文本编码器,提升语义理解。同时结合用户-物品交互图(如GCN),将LLM特征与协同过滤信号融合。
评估指标可以参考MENTOR的实验设计,除准确率外,加入模态对齐度(如特征相似性)、鲁棒性(对抗噪声)等指标。

但是在计算成本上,MENTOR依赖GCN,若项目需实时推荐,需优化LLM+图模型的推理效率。而且由于模态差异,LLM生成的文本特征分布可能与视觉特征差异更大,需更精细的对齐策略(如引入适配层)。

总之,这篇MENTOR为多模态推荐提供了模块化框架,其自监督学习和模态对齐方法可直接迁移至LLM电商推荐系统。关键是通过LLM增强文本模态表达,同时借鉴MENTOR的多级对齐和特征增强,解决数据稀疏与模态噪声问题。下一步可探索LLM如何替代MENTOR中的文本编码器,并设计更适合电商场景的自监督任务(如基于用户评论的对比学习)。

# Contrastive Modality-Disentangled Learning for Multimodal Recommendation
多模态推荐利用丰富的多模态信息来学习用户偏好,引起了广泛关注。大多数工作侧重于设计强大的编码器来提取多模态特征,并简单地将学习到的特征聚合在一起进行预测。因此,它们学习模态间知识(包括模态共享知识和模态独特知识)的能力有限。事实上,学习模态共享知识使我们能够对齐跨模态数据以融合异构模态特征。当推荐任务仅涉及少量共享特征并且必要信息包含在特定模态中时,学习模态独特知识同样重要。在本文中,我们提出了对比模态解缠学习(CMDL)来克服这一关键限制。CMDL 通过实现模态解缠来精确捕获模态间知识。具体而言,CMDL 首先将初始表示解缠为模态不变表示和模态特定表示。随后,CMDL 引入了一种新颖的对比学习方式来近似 MI 上界,以实现解缠正则化。在所提出的正则化基础上,CMDL 鼓励模态不变和模态特定表示分别捕获模态共享和模态独特知识,并在统计上相互独立。从实证上讲,在基准数据集上进行了广泛的实验,证明了 CMDL 与强大的多模态推荐器相比具有卓越的性能。
CMDL的pipeline如下所示:
这个多模态推荐系统(CMDL)的算法流程如下:
    1.    构建物品-物品语义图(Construction of Item-Item Semantic Graphs)
    •    通过视觉特征提取器和文本特征提取器,分别提取商品的视觉特征(如图片)和文本特征(如描述)。
    •    根据这些特征构造视觉和文本模态的物品-物品语义图
    2.    学习解耦的多模态表示(Learning Disentangled Multimodal Representation)
    •    采用 LightGCN 处理全局交互图  G^b  ,学习全局交互表示  h_r^v  和  h_r^t  。
    •    通过注意力机制进一步学习解耦的模态特定表示:
    •    视觉模态特定表示  e_r^v 
    •    文本模态特定表示  e_r^t 
    •    共享模态无关表示  e_r^c 
    •    通过约束  h_r^v - e_r^v 、 h_r^t - e_r^t  和  h_r^t - e_r^c  来解耦模态信息。
    3.    偏好预测与损失优化(Preference Prediction & Prediction Loss)
    •    结合最终的多模态表示  e_r^m  和交互表示  h_r^n  生成用户和物品的表示  e_i  和  e_u  。
    •    采用 BPR(Bayesian Personalized Ranking)损失进行优化。
    4.    基于互信息的解耦正则化(MI-Based Disentanglement Regularization)
    •    通过互信息(MI)估计上、下界来约束解耦表示:
    •    互信息下界估计  I(h_r^v; e_r^c)  和  I(h_r^t; e_r^c) 。
    •    互信息上界估计  I(h_r^v; e_r^c) 、 I(h_r^t; e_r^c)  和  I(e_r^v; e_r^c) 。

CMDL 通过构建物品-物品语义图提取视觉和文本模态特征,并通过 LightGCN 和注意力机制学习解耦的多模态表示。同时,采用基于互信息的正则化方法提高模态解耦能力,并最终利用 BPR 损失优化推荐效果。

这篇文章提出的 CMDL(Contrastive Multimodal Disentangled Learning) 主要聚焦于多模态表示的解耦学习,尤其是如何从视觉和文本模态中提取信息,同时保证模态间的信息独立性,从而提高推荐系统的表现。对于我们的基于 LLM 的多模态电商推荐系统,这篇文章有几个值得借鉴的地方。

CMDL 采用 物品-物品语义图(Item-Item Semantic Graphs) 来建模不同模态的信息关联,这对基于 LLM 的电商推荐系统有直接的启发。在 LLM 时代,多模态信息(如商品图片、文本描述、用户评论等)可以通过大模型的嵌入层来获得统一的表示,但如何构造高质量的多模态关系图仍是关键。你可以借鉴 CMDL 的思路,构造一个基于 LLM 生成的 语义关系图,不仅包含商品间的相似度信息,还可以结合 LLM 提取的概念关联(如同类型、替代品、配套商品等),从而增强推荐系统的可解释性和泛化能力。

然后我发现,CMDL 在 学习解耦的多模态表示(Disentangled Multimodal Representation Learning) 方面的做法值得关注。它通过 LightGCN 进行全局交互建模,并利用注意力机制学习模态特定(视觉、文本)和模态共享(通用)表示,同时引入互信息(Mutual Information, MI)进行正则化,确保不同模态的信息不被混淆。这一思路对于基于 LLM 的推荐系统同样适用。LLM 生成的文本嵌入往往包含丰富的多模态知识,但如何区分哪些信息是文本模态特有的,哪些信息是跨模态共享的,是当前多模态推荐研究中的一个难点。因此,你可以考虑引入类似的解耦学习方法,让 LLM 生成的嵌入在不同模态间进行有针对性的分解,比如利用 对比学习(Contrastive Learning) 或 互信息最小化 来确保视觉、文本和交互特征各司其职,从而提升模型的可解释性和鲁棒性。

此外CMDL 采用 基于互信息的正则化(MI-Based Disentanglement Regularization) 约束模态特定和模态共享的表示分布,这一做法在 LLM 时代仍然具有价值。现代 LLM 模型(如 GPT-4、Gemini、Mistral)虽然可以直接处理多模态数据,但在多模态融合时,仍然容易出现模态信息不均衡的问题。例如,在商品推荐任务中,文本描述可能包含比图片更丰富的细节信息,导致模型对文本模态的依赖性更强,而忽略视觉模态。因此,可以借鉴 CMDL 的 互信息约束策略,在 LLM 生成的多模态表示中,通过互信息上界和下界的估计,控制不同模态的独立性和互补性,从而提高模型的稳定性和泛化能力。

在 优化目标 方面,CMDL 采用 BPR Loss 进行优化,而在 LLM 结合推荐系统的场景下,你可以考虑将其拓展为 融合对比学习、生成式学习以及排序优化 的多任务损失函数。例如,可以结合 基于 LLM 的生成任务(如摘要生成、问答预测),让 LLM 在理解商品信息的同时优化推荐目标。此外,可以设计 用户行为模拟任务,让 LLM 预测用户可能的购买路径,从而提高推荐的精准度和用户体验。

这篇文章在 多模态表示解耦、基于图结构的关系建模、互信息正则化以及优化目标设计 方面提供了许多值得借鉴的思路。在 LLM 赋能的多模态推荐系统中,你可以结合这些方法,让 LLM 不仅作为特征提取工具,更作为推荐过程中的核心推理模块,提高模型的多模态理解能力和推荐效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值