港大联合微信推出DiffMM:扩散模型重塑多模态推荐系统的全新范式

a6c615adb591fc8c9008d532635350c6.gif


香港大学黄超教授领导的数据智能实验室,与微信研发团队联合开发了一种基于扩散模型的全新多模态推荐系统范式 - DiffMM。这项创新性成果融合了扩散模型技术,能够有效利用多种模态数据,为用户提供个性化、精准的多媒体内容推荐服务。

27da79788b7f832dfdb29ab0f9eb0490.png

论文标题:

DiffMM: Multi-Modal Diffusion Model for Recommendation

论文链接:

https://arxiv.org/abs/2406.11781

代码链接:

https://github.com/HKUDS/DiffMM

实验室主页:

https://sites.google.com/view/chaoh

9e79d210ccc00254584aaad61fbb759a.png

TLDR

随着在线多模态分享平台(如 TikTok 和 YouTube)的迅速发展,个性化推荐系统可以将视觉、文本和音频等多种模态融合到用户表示中。然而,数据稀疏性问题仍然是这些系统面临的一个重大挑战。为了应对这一问题,近年来的研究引入了自监督学习技术,以增强推荐系统的性能。然而,现有的方法通常依赖简单的随机增强或直观的跨视图信息,这可能会引入无关噪声,并且难以精确地将多模态上下文与用户-项目交互进行匹配。

为了解决这一研究空白,作者提出了一种新颖的基于多模态图扩散的推荐模型,称为 DiffMM。该框架结合了模态感知图扩散模型和跨模态对比学习范式,以提升模态感知用户表示的学习效果。这种整合方式有助于更好地对齐多模态特征信息与协同关系建模。

DiffMM 利用扩散模型的生成能力自动构建用户-物品图,这个图能够表示不同模态下的用户-物品交互信息,从而有助于将有用的多模态知识融入到用户-物品交互建模中。作者在三个公共数据集上进行了大量实验,结果表明,DiffMM 在各种基准模型中表现出了显著的优越性。

87a33354d52f9d8e91248d6b1d65ab77.png

研究背景

多媒体推荐系统在电子商务和内容共享应用中扮演着关键角色,这些应用涉及大量网络多媒体内容,如短视频、图片和音乐。这些系统处理多种类型的内容特征,包括视觉、声学和文本特征,从而能够细致地捕捉用户的兴趣。例如,VBPR [1] 扩展了矩阵分解框架以处理物品的多模态特征。ACF [2] 引入了一个层次注意力网络,用于识别用户在组件级别的偏好。

最近,诸如 MMGCN [3]、GRCN [4] 和 LATTICE [5] 等方法利用图神经网络(GNNs)将模态信息整合到信息传递过程中,以推断用户和物品的表示。然而,大多数现有的多媒体推荐系统依赖于大量高质量标记数据(即观察到的用户交互)进行监督训练。在现实生活中的推荐场景中,用户交互数据相对于整个交互空间是稀疏的,这限制了监督模型生成能够准确表示复杂用户偏好的嵌入。

最近的研究提出了一些解决方案,通过将自监督学习(SSL)技术与多模态特征相结合,来增强多模态推荐任务的效果。例如,CLCRec [6] 和 MMSSL [7] 采用了基于互信息的自监督学习方法来丰富多模态特征中的物品嵌入。同时,MMGCL [8] 和 SLMRec [9] 引入了随机扰动来进行对比学习,以增强模态特征。

然而,这些方法常常依赖于简单的随机增强或直观的跨视图嵌入对齐,可能会引入不相关的噪音信息,包括用户误点击行为或流行偏差所导致的增强型自监督信号。因此,需要一个自适应的模态感知增强模型,以实现更准确的自监督学习,并能够有效地将多模态上下文信息与相关的协同信号对齐,用于用户偏好学习。这将确保在多媒体推荐系统中稳健地建模模态感知的协同关系。

为了解决上述问题,作者提出了 DiffMM,一种新颖的多模态图扩散模型,用于推荐任务。受到最近扩散模型在各个领域任务中的出色表现的启发,DiffMM 专注于利用扩散模型的生成能力,生成一个多模态感知的用户-物品图,以有效地对用户-物品交互进行建模。

具体而言,作者通过逐步破坏的过程,向用户-物品交互图引入随机噪声。然后,通过一个逆向过程,反复恢复经过 步累积噪声的破坏图,以还原原始的用户-物品图结构。

为了进一步引导逆向过程并生成一个多模态感知的用户-物品图,作者引入了一个简单而有效的多模态感知信号注入机制。通过生成的多模态感知的用户-物品图,作者进一步提出了一种多模态感知的图神经网络范式,用于多模态图的聚合。这使得 DiffMM 能够有效地捕捉与不同模态相关的用户偏好。此外,作者还提出了一个跨模态对比学习框架,通过不同模态下用户-物品交互模式的一致性,进一步增强推荐系统对多模态上下文的学习能力。

b160ed9457ab5cbbc1b1a97d2c7fb839.png

模型方法

DiffMM 的总体框架图如下所示,主要分为三个部分:1. 多模态图扩散模型,它通过生成扩散模型来实现多模态信息引导的模态感知用户-物品图的生成。2. 多模态图聚合,该部分在生成的模态感知用户-物品图上进行图卷积操作,以实现多模态信息的聚合。3. 跨模态对比增强,采用对比学习的方式来利用不同模态下用户-物品交互模式的一致性,从而进一步增强模型的性能。

818d6ee84f27ddb60d27e36d72150f32.png

3.1 多模态图扩散

受到扩散模型在保留生成输出基本数据模式方面的成功启发,DiffMM 框架提出了一种创新的多模态推荐系统方法。具体而言,作者引入了一个多模态图扩散模块,用于生成包含模态信息的用户-物品交互图,以增强对不同模态下用户偏好的建模。该框架专注于解决多模态推荐系统中无关或噪声模态特征带来的负面影响。

为了实现这一目标,作者采用模态感知去噪扩散概率模型将用户-物品协同信号与多模态信息统一起来。具体而言,作者逐步破坏原始用户-物品图中的交互,并通过概率扩散过程进行迭代学习,以恢复原始交互。这种迭代去噪训练有效地将模态信息纳入用户-物品交互图的生成中,同时减轻了噪声模态特征的负面影响。

此外,为了实现模态感知的图生成,作者提出了一种新颖的模态感知信号注入机制,用于指导交互恢复过程。这个机制在有效地将多模态信息纳入用户-物品交互图的生成中起到了关键作用。通过利用扩散模型的能力和模态感知信号注入机制,DiffMM 框架为增强多模态推荐器提供了一个强大而有效的解决方案。

3.1.1 图概率扩散范式

在用户-物品交互图的扩散过程中,涉及两个主要步骤。首先是前向过程,它通过逐渐引入高斯噪声,来破坏原始的用户-物品图。这一步骤模拟了噪声模态特征对用户和物品之间交互的负面影响。其目的是逐渐削弱用户与物品之间的连接。接下来是逆向过程,它专注于学习和去噪受损的图连接结构。该过程的目标是通过逐步改进受损的图,来恢复用户与物品之间的原始交互。

对于前向图扩散过程,考虑用户 和物品集合 中每个物品的交互情况,用 来表示,其中 等于 0 或 1 表示用户 是否与物品 发生过交互。首先,将扩散过程进行初始化,即 。在接下来的 步中,逐渐引入高斯噪声,以构建 的马尔可夫链。具体来说,可以将从 到 的过程参数化为:

d7681da61e58fb454e4ebb67772aef9e.png

当 时,状态 会逐渐接近一个符合高斯分布的标准状态。为了得到状态 ,作者使用了重参数技巧和独立高斯噪声可叠加的特性,直接从初始状态 推导出来:

630b3a108636f0b2c6bcbc76255f1543.png

对于逆向图扩散过程而言,DiffMM 的目标是通过消除来自 的噪声来逐步恢复 。这个过程使得多模态扩散能够有效地捕捉复杂的生成过程中微小的变化。从 开始,去噪过程逐步恢复用户-物品交互,逆向过程如下展开:

08634759a05eb572dd6b44de142fd91b.png

这里,作者使用参数为 的神经网络来生成一个高斯分布的均值 和协方差 。

3.1.2 模态感知的图扩散优化

扩散模型的优化目标是引导逆向图扩散过程。为了实现这一目标,需要优化负对数似然的 Evidence Lower Bound(ELBO)来优化 :

ba8a7bcc6508f28ddd5607190257ad3b.png

对于 ,有三种情况:

900ad4036bc60c6b2d1b67bf2e622d51.png

这里, 是 的负重建误差; 是一个在优化中可以忽略的常量项,因为它不包含可优化的参数; 旨在通过 KL 离散度使分布 和可计算的分布 对齐。

为了实现图扩散的优化,作者设计了一个神经网络,以在反向过程中进行去噪处理。根据贝叶斯法则, 可被表示为如下近似表达:

e9d77faad1be831293a3ffb3b94bc10a.png

更进一步, 可以表示为:

a948fee2fa8c3e83895f463b302c76c9.png

这里, 是基于 和时间步 预测的 ,作者使用神经网络来实现它。具体而言,作者使用一个多层感知器(MLP)来实现 ,该 MLP 以 和时间步 的嵌入表示作为输入来预测 。对于 ,可以被表示为:

c39f0c885e0e843e9aeec95cae04589e.png

在实际实现中,作者从 中均匀采样来得到时间步 :

10042ed3a25c87130eaba2ee65891a29.png

多模态图扩散的目标是通过用户-物品的多模态感知图来增强推荐系统。为了实现这一目标,作者提出了一种模态感知信号注入(MSI)机制,用于引导扩散生成模块生成带有相应模态的多个模态感知用户-物品图。

具体而言,作者将对齐的物品模态特征与预测的模态感知用户-物品交互概率 进行聚合。同时,作者还将物品 id 嵌入 与观察到的用户-物品交互 进行聚合。最后,通过计算上述两个聚合嵌入之间的均方误差损失,并结合 进行优化。具体而言,模态 𝑚 的均方误差损失 定义如下:

fbbddbc8c3928cd1d747437a3e51e93f.png

3.2 跨模态对比增强

在多模态推荐场景中,用户在不同物品模态(如视觉、文本和音频)上的交互模式存在一定的一致性。以短视频为例,用户可能会被其视觉和音频特征所吸引,因此视觉偏好和音频偏好往往会交织在一起,呈现出复杂的关系。为了提高推荐系统的性能,捕捉和利用这种模态相关的一致性,作者提出了两种基于不同锚点的模态感知对比学习范式。一种范式以不同模态视图作为锚点,另一种范式则以主视图(协同过滤)作为锚点。

3.2.1 模态感知的对比视图

为了生成特定模态的用户/物品嵌入表示作为对比视图,作者使用了基于 GNN 的表示学习方法。具体而言,在图扩散模型生成的模态感知用户-物品图上进行消息传递。首先,作者将物品原始模态信息 转化为相同维度的物品模态特征 :

a7665d9277d6b136f94852885403e09a.png

接下来,对用户嵌入 和物品模态特征 进行信息聚合,得到聚合的模态感知嵌入 :

3869d9ab99e93a14ad9bbb50c8c3ea46.png

这里, 表示通过图扩散模型生成的模态感知图。为了获得多模态感知的高阶协同信息,作者进一步在原始用户-物品交互图 进行了迭代的消息传递:

1f46a5e9c26beb42aef1931c509f4f60.png

3.2.2 模态感知的对比增强

作者在文中探讨了两种不同的对比方法,以模态感知的对比视图为基础。其中一种方法使用不同的模态视图作为锚点,而另一种方法则使用主视图作为锚点。前一种方法认为用户在不同模态中的行为模式具有关联性,而后一种方法则希望用户在不同模态中的行为模式可以引导和提升主视图的偏好表达。在这里,主视图是指通过 GNN 在多个模态感知图上聚合并进一步融合的用户和物品表达。两种对比方法分别采用了以下对比损失(InfoNCE loss):

以模态视图作为锚点。基于用户行为模式在不同模态上的相关性,作者将不同模态的嵌入作为视图,并通过 InfoNCE 损失来最大化两个模态视图之间的互信息,将其他用户的嵌入表示作为负样本:

9e20a855efabc2c653037ae36ce95fda.png

以主视图作为锚点。目标是通过对比学习的方法利用用户在不同模态上的行为模式来引导和提升目标推荐任务的性能。为此,作者将竹石图的嵌入表示作为锚点,将最大化主视图和不同模态视图之间的互信息作为优化目标:

361e656e5cdfc3084efc03d96a660e37.png

3.3 多模态图聚合

为了生成最终的用户(物品)表示 以进行预测,作者首先对所有的模态感知嵌入 和相应的模态感知用户-物品图 进行聚合:

bb78b7a0d31b32ed352b1fde0b7c27a9.png

由于每个模态对于最终聚合的模态表示有不同的影响程度,作者使用一个可学习的参数化向量 控制各个模态的权重,以求和的方式融合各个模态的表示:

897a1148d48a6b5fc4dcbb01dbc25e75.png

最后作者在原始的用户-物品交互图 上进行消息传递,以利用用户和物品的高阶协同信号:

85c7bb660e0a78d8afd0ec9fc4a3dc9e.png

3.4 多任务模型训练

DiffMM 的训练包含两个部分:对于推荐任务的训练和对于多模态图扩散模型的训练。对于扩散模型的联合训练,也包括两个部分:ELBO 损失和 MSI 损失。对于模态 的扩散模型去噪网络的优化损失如下:

e863d9696f43348432bf6aa2dc087a4a.png

对于推荐任务的训练,作者引入了经典的贝叶斯个性化排名(BPR)损失和多模态对比增强损失 ,BPR 损失定义如下:

19391c47b7a22182eaee8defad614e93.png

推荐任务的联合优化目标如下:

a53e28d515d69f83f7b5cc39db02a535.png

9d37660e1f626178d2838d63b086be60.png

实验结果

作者在三个公开数据集上对比了多种类型的最新基线模型,包括传统的协同过滤方法、基于 GNN 的方法、生成扩散推荐方法、自监督推荐方法以及 SOTA 的多模态推荐方法。通过进行广泛而充分的实验,结果显示提出的 DiffMM 在总体性能上表现最优。

00b54e38f447d1a3d637587ee7e2721a.png

为了验证所提出方法各个模块(i.e., 多模态图扩散模型,多模态图聚合,和跨模态对比增强)的有效性,作者进行了细致的消融实验。实验结果显示,所提出的各个子组件都能有效地提升推荐效果:

3f4162b0fe3705514dbe4e215fdf4eba.png

作者进一步研究了 DiffMM 在处理数据稀疏问题上的效果。具体而言,作者根据训练集中用户的交互数量对用户进行了分组,并分别进行训练。实验结果显示,DiffMM 中的跨模态对比学习方法能够有效地缓解数据稀疏的情况。该方法利用了由多模态图扩散模型生成的模态感知用户-物品图,从而获取高质量的自监督信号。

3c69de5b1f5bbc4dee645ecca0ec5d67.png

对于所提出的 DiffMM,作者对一些重要的超参数进行了分析,包括多模态图聚合模块中的超参数、模态感知扩散模型中的 MSI 权重:

4aac06593621f8a77cbb720f21dc1af2.png

为了全面地评估所提出的模态感知图扩散模型对推荐系统性能的影响,作者进行了一项实验。实验比较了模态感知用户-物品图(由 DiffMM 生成)与通过边丢弃进行随机增强的用户-物品图之间的融合比率对于自监督增强对比视图构建的影响。融合比率为 0 表示只使用模态感知的用户-物品图构建对比视图,而融合比率为 1 表示只使用随机增强方法。

实验结果明确表明,在两个数据集中,融合比率的增加导致模型性能下降。这一发现显示,模态感知的图扩散模型通过提供模态感知的对比视图而不是随机增强视图来增强跨模态对比学习的优越性。这个优势可以归因于基于图扩散的生成方法对潜在交互模式的有效建模,以及通过精心设计的生成机制将多模态上下文纳入到用户-物品交互图的扩散过程中。

acb1e8b7f91e7bf39e220ea1541b833e.png

为了评估所提出的模态信号注入机制(MSI)的给多模态扩散模型带来的多模态用户-物品图生成能力,作者对生成的模态感知用户-物品图进行了详细的案例研究。下面左图展示了使用图像模态特征在 Amazon-Baby 数据集上生成的模态感知图中随机抽样得到的一个子图。右图显示了一个热图,表示基于相应模态特征的物品相似性。

结果显示,构建的图结构与模态特征相似性之间存在着很强的相关性。例如,在生成的图中,物品 1131 和 337都是用户 1171 的邻居,并且它们在热图中表现出一个高相似度得分 0.85。这个相似度得分是物品 1131 的最高分,物品 337 的第二高分。同样地,物品 1334 和 2108,它们在生成的图中与同一个用户 1108 连接,并且它们之间存在着高相似度得分 0.97,这表明它们具有模态感知的相似性。

值得注意的是,这些物品对在原始的用户-物品交互图中并没有直接的连接。相反,它们的连接是通过模态特征的影响建立的。这个案例研究清楚地证明了 DiffMM 在生成模态特定图方面的有效性,从而通过高质量的数据增强提高了跨模态对比学习。

这一优势源于 DiffMM 的两个关键设计元素。首先,基于扩散的图生成方法通过逐步的前向和反向去噪训练准确地捕捉了潜在的用户-物品交互模式。其次,MSI 机制成功地将模态特定信息融入到扩散过程中,确保生成的图反映了每个模态的独特特征。

a07e74254be3358b67988dce81cd7494.png

2ab01bac4c26f0ead04ddc85676e39b1.png

总结

本文介绍了一种新颖的多模态推荐模型 DiffMM。通过结合多模态信息,它丰富了概率扩散范式。该方法利用多模态图扩散模型来重构模态感知的用户-项目图,并利用跨模态数据增强模块的优势提供有价值的自监督信号。为了评估 DiffMM 的有效性,作者进行了大量的实验,并与多个具有竞争力的基线模型进行了比较。实验结果明确表明 DiffMM 在推荐性能方面具有优越性。

outside_default.png

参考文献

outside_default.png

[1] R. He and J. McAuley. Vbpr: visual bayesian personalized ranking from implicit feedback. In AAAI, volume 30, 2016.

[2] J. Chen, H. Zhang, X. He, L. Nie, W. Liu, and T.-S. Chua. Attentive collaborative filtering: Multimedia recommendation with item-and component-level attention. In SIGIR, pages 335–344, 2017.

[3] Y. Wei, X. Wang, L. Nie, X. He, R. Hong, and T.-S. Chua. Mmgcn: Multi-modal graph convolution network for personalized recommendation of micro-video. In MM, pages 1437–1445, 2019.

[4] Y. Wei, X. Wang, L. Nie, X. He, and T.-S. Chua. Graph-refined convolutional network for multimedia recommendation with implicit feedback. In MM, pages 3541–3549, 2020.

[5] J. Zhang, Y. Zhu, Q. Liu, S. Wu, S. Wang, and L. Wang. Mining latent structures for multimedia recommendation. In MM, pages 3872–3880, 2021.

[6] Y. Wei, X. Wang, Q. Li, L. Nie, Y. Li, X. Li, and T.-S. Chua. Contrastive learning for cold-start recommendation. In MM, pages 5382–5390, 2021.

[7] W. Wei, C. Huang, L. Xia, and C. Zhang. Multi-modal self-supervised learning for recommendation. In WWW, pages 790–800, 2023.

[8] Z. Yi, X. Wang, I. Ounis, and C. Macdonald. Multi-modal graph contrastive learning for micro-video recommendation. In SIGIR, pages 1807–1811, 2022.

[9] Z.Tao,X.Liu,Y.Xia,X.Wang,L.Yang,X.Huang,andT.-S.Chua.Self-supervised learning for multimedia recommendation. Transactions on Multimedia (TMM), 2022.

更多阅读

b21ad19c13b383368d47cbe19777528f.png

9009e72d50be01ff034f19f185f74bf6.png

43a2fc6043e80d6e991eda8e3409bd3d.png

3a1294b97ec9080d76ce427f14450e87.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

fd0c66973dca2e632f3d866e23495091.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

b84c3dc488241e6d5a6c24d4269d29a3.jpeg

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值